java获取网站
Ⅰ 如何通过java获取网站内容的两种方法
通过java获取网站内容的两种方法,你可以去淘客神这样的网站看看人家是怎么实现的。
Ⅱ 使用java语言如何获取用户正在浏览的网站地址信息(这个网站不是自己的web应用,即用户访问别的应用..)
1L的在开玩笑吗? 你用log4j还能记录别的web的日志?
如果用户是从你的web程序通过点击链接之类访问的其他web的话 获取就很简单了 因为起始的地方是你的web程序 获取的方法有很多
但如果是直接输入的url 这个就没法了 因为这一个请求就已经直接到别人的web了 不过你可以尝试一下用js监控地址栏的变化 然后异步传回 不过这种监控可能不准确 因为别人跳转的时候不一定你的ajax正好把完整的url传回
或者你看一下 java.net网络编程方面的只是 应该可以监控到网络信息
Ⅲ 怎么用java获取登陆百度后的网页
URL url = new URL("http://www..com/");HttpURLConnection huc = (HttpURLConnection) url.openConnection();然后关键是设置setRequestProperty
这个可以借用浏览器,像IE、chrome、firefox都可以的
主要是理解和网络端的请求和回复....模拟浏览器的话,每次浏览器去获取一个url的时候,就会有一个Request头,这个头就会带有浏览器信息啊cookie啊等等比如说用chrome,可以用F12进入控制台,然后看下面的NetWork栏
比如进入网络的时候你点击第一个就会看到你浏览器和网络服务器间的请求文件了
你如果复制的话,就用setRequestProperty("Accept", "text/html,application/.....")这样一项一项去设置httpurlconnection的属性
cookie也是一样的
这样,设置完以后,在connect方法连接网络,返回的时候就是登陆以后的页面的,也就模拟了你的浏览器的登陆。如果你的浏览器是记住登陆状态的话,那复制下来的cookie也是有效的,你也能一样用java获取页面了其实用firefox、IE也是一样的。其实cookie也是本地保存的,你可以写个java从本地得到cookie然后进行访问
这个和mfc的webbrowser浏览差不多,那个会自动去模拟IE,使用IE的cookie等等。
Ⅳ 如果运用java获取其他网站的内容
简单的jsoup爬取,静态页面形式;
String url="a.atimo.cn";//静态页面链接地址
Document doc = Jsoup.connect(url).userAgent("Mozilla").timeout(4000).get();
if(doc!=null){
Elements es = doc.select("div.comments>ul>li");// System.out.println(es);
if(es!=null && es.size()>0){
for (Element element : es) {
String link = element.select("div>h3").attr("href");
String title = element.select("div>h3").text();
String author = element.select("div.c-abstract>em").text();
String content = element.select("dd>a>div.icos>i:eq(1)").text();
}
}
}
通过jsop解析返回Document 使用标签选择器,选择页面标签中的值,即可获取页面内容。
Ⅳ java如何获取动态网页内容
Htmlunit这个工具类,进行http请求访问,获取html网页,以及过滤网页html标签获取网页文本。
主要的思路还是以下几点:
1.了解你要爬取的网页的元素,以及通讯,校验安全机制。常用方法通过chrome浏览器访问你要获取的网页,基本上一个老司机打开F12就差不多知道页面的表单,数据以及通过什么样的请求方式请求服务,并又是怎么样返回,加载到页面进行渲染。如果还不熟悉这个F12,那还不赶快去get起来啊,时间短,效率快,看一遍就知道怎么用了的好东西不利用起来,不是太浪费了。
2.了解了你要访问的网页的你想要获取的元素之后,就是怎么发起http的request请求,模拟这个请求获取response。那这个request就是通过在程序里模拟的浏览器器发起,如果成功发起,那么你需要的数据就藏在这个response里。
3.成功获取response之后,就是怎么进行解析,获取你想要的数据。当然,如果是json数据,那么解析起来就很容易。如果返回的是整个html,那也是有办法解析,抽取转换成需要的文本进行入库。
接下来,就通过实际的编码,来如何一步步实现。
有些网站,是通过登陆来取得认证看到更多数据,有些网站可以直接发请求访问。而我写的这个列子,就是登陆之后,获取的网站内部的数据。
基本思路就是,通过登陆拿到令牌,然后拿着这个令牌,去访问这个网站内你需要访问的地址,从而获取数据。来,让我们看看代码是如何实现的。
Ⅵ java 怎样获取一个网页的内容 要网页里面的表格数据 (通过源码不能直接获取数据),请教
根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。
针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。
比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到包括“java”这个关键字的内容的效果。
从网页上爬取图片的流程和爬取内容的流程基本相同,但是爬取图片的步骤会多一步。
需要先用img标签的正则表达式匹配获取到img标签,再用src属性的正则表达式获取这个img标签中的src属性的图片url,然后再通过缓冲输入流对象读取到这个图片url的图片信息,配合文件输出流将读到的图片信息写入到本地即可。
Ⅶ java如何获取浏览器的访问网址及其内容
通过request俩获取,以下是request的方法介绍:
getParameterNames():取得客户端所发出的请求参数名称.
getParameter():可以让您指定请求参数名称,以取得对应的设定值.
getServerName():请求的服务器.
getProtocol():使用协议.
getMethod():请求方法.
getServerPort():请求端口号.
getContextPath():Context路径.
getServletPath(): Servlet路径.
getRequestURI():URI路径.
getQueryString():查询字符串.
getRemoteAddr():使用者主机IP.
getRemotePort():使用者使用端口号.
Ⅷ java程序怎么读取html网页
步骤:
一、使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象。
二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中。
Ⅸ java 获取网页链接
在java中实现,需要action处理 提供思路:点击链接时提交给action,可以用
response.senRedirect("URL");方法进行重定向
也可在jsp中嵌套js实现,不过看题目似乎不需要这样实现