java抓取網頁數據
① java開發一個介面程序,定時抓取網頁信息
如果不依賴第三方庫的話方式如下:
1.
使用TimerTask相關類做定時
2.
使用url或httpclient相關類做頁面抓取
3.
對於您的需求,建議加入分析引擎做頁面分析,截取一些數據。
用第三方庫的話應該比較簡單點,但邏輯差不多。
② 如何使用Java抓取網頁上指定部分的內容
1. 你可以選擇用Java代碼來找到整個網頁的html代碼,如下
(注意在處理網頁方面的內容時,需要導入htmlparser包來支持)
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;
public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}
以上代碼,public static NodeList getNodeList(String url) 為主體
傳入需要分析網頁的 url(String類型),返回值是網頁Html節點List(Nodelist類型)
這個方法我沒有什麼要說的,剛開始的時候沒看懂(沒接觸過),後來用了幾次也懂點皮毛了
注意: parser.setEncoding("GBK"); 可能你的工程編碼格式是UTF-8,有錯誤的話需要改動
運行該程序
2.通過瀏覽器工具直接查看 IE是按F12 (剛開始沒發現這個方法,於是傻乎乎地找上面的代碼)
分析你所獲得的html代碼讓人眼花繚亂,不要緊,找到自己需要趴取的內容,找到它上下文有特徵的節點
<!--中行牌價 開始-->
<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易幣種</th>
<th width="80" align="center">交易單位</th>
<th width="130" align="center">現價(人民幣)</th>
<th width="80" align="center">賣出價</th>
<th width="100" align="center">現匯買入價</th>
<th width="95" align="center">現鈔買入價</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港幣</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麥克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>
<!--{2011-10-01 23:16:00}-->
</tbody>
</table>
</div>
<!--中行牌價 結束-->
大家可以看到這是一段很有規律,書寫非常規范的Html代碼(這只是第一部分,中行牌價,可以想像,接下來還會有並列的 相似的3部分)
大家想截取這些節點中的數據
以下代碼仍需導入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}
public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}
public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}
廢話不多說,
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意,代碼編碼格式
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
}
);
nodelist是html節點的列表,現在使用NodeFilter ( 節點過濾器 )實例, 重載NodeFilter類中的accept()方法
在parser這個Parser類訪問整個html頁面的時候,每遇到一個html節點,就會訪問這個
accept()方法,返回True的話就會將這個節點 放進nodelist中,否則就不會將這個節點放進去。這個就是NodeFilter功能。
代碼段一獲取整個html頁面時候 parser.visitAllNodesWith(visitor); 就是獲取所有節點
所以現在我們要趴取網頁上的內容,只要告訴accept()這個方法,哪些節點要放進nodelist去,即 遇到哪些節點需要返回true。
於是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser類在遇到節點,就把這個節點拿過去問accept(),於是accept()方法分析,如果滿足getStringsByRegex(node.getText())就要了
接下來分析getStringsByRegex(),只剩下最後一步了,大家堅持啊!
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以發現我們索要的每一段都是
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">這個節點就行了,我們用正則表達式去比較
String regex="td class=\"no\""; 這個是比較標准(正則表達式 td class=」no」 其中兩個引號需要作為轉義字元來表示 成\「 )
變數txt是我們傳過去的需要比較的節點的node.getText(),如果符合的話m.find就是true,於是getStringsByRegex()返回true,說明這個節點就是我們所需要的哪些節點,於是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html,6個為一組,先是962.6,然後是993.26,1001.24,992.7,100,英鎊分別被add進result這個ArrayList<String>中去,返回,這個ArrayList裝的就是我們需要抓取的數據
大家可以把我們所獲得的String數據數出來試試看,是不是我們需要的順序,main()函數獲得ArrayList<String>,就可以顯示到我們所需要的Java widget上去了
③ java爬蟲抓取指定數據
根據java網路編程相關的內容,使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。
針對得到的html代碼,通過使用正則表達式即可得到我們想要的內容。
比如,我們如果想得到一個網頁上所有包括「java」關鍵字的文本內容,就可以逐行對網頁代碼進行正則表達式的匹配。最後達到去除html標簽和不相關的內容,只得到包括「java」這個關鍵字的內容的效果。
從網頁上爬取圖片的流程和爬取內容的流程基本相同,但是爬取圖片的步驟會多一步。
需要先用img標簽的正則表達式匹配獲取到img標簽,再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url,然後再通過緩沖輸入流對象讀取到這個圖片url的圖片信息,配合文件輸出流將讀到的圖片信息寫入到本地即可。
④ 如何通過Java代碼實現對網頁數據進行指定抓取
通過Java代碼實現對網頁數據進行指定抓取方法步驟如下:
1在工程中導入Jsoup.jar包
2獲取網址url指定HTML或者文檔指定的body
3獲取網頁中超鏈接的標題和鏈接
4獲取指定博客文章的內容
5獲取網頁中超鏈接的標題和鏈接的結果
⑤ java爬蟲怎麼抓取登陸後的網頁數據
一般爬蟲都不會抓登錄以後的頁面,
如果你只是臨時抓某個站,可以模擬登錄,然後拿到登錄以後的Cookies,再去請求相關的頁面。
⑥ 如何java寫/實現網路爬蟲抓取網頁
原理即是保存cookie數據保存登陸後的cookie.以後每次抓取頁面把cookie在頭部信息裡面發送過去。系統是根據cookie來判斷用戶的。有了cookie就有了登錄狀態,以後的訪問都是基於這個cookie對應的用戶的。補充:Java是一種可以撰寫跨平台應用軟體的面向對象的程序設計語言。Java技術具有卓越的通用性、高效性、平台移植性和安全性,廣泛應用於PC、數據中心、游戲控制台、科學超級計算機、行動電話和互聯網,同時擁有全球最大的開發者專業社群。
⑦ 如何使用java編程完成網頁新聞抓取與去重
如果代碼能力不是很好的話可以藉助一些軟體去抓取新聞的欄位
把數據抓取下來以後可以選擇存入資料庫當中
需要去重的話,在Java的集合框架中就有HashSet和HashMap可以對數據去重
使用帶Hash的集合時一定要注意,如果是存放自定義的對象一定要重寫equals方法和HashCode方法
⑧ java 抓取網頁數據,要怎麼抓取
如果是一般允許抓取的頁面用 wget就可以抓取了,
不允許抓取的的爬蟲程序可以考慮用HttpClient
⑨ java 怎樣獲取一個網頁的內容 要網頁裡面的表格數據 (通過源碼不能直接獲取數據),請教
根據java網路編程相關的內容,使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。
針對得到的html代碼,通過使用正則表達式即可得到我們想要的內容。
比如,我們如果想得到一個網頁上所有包括「java」關鍵字的文本內容,就可以逐行對網頁代碼進行正則表達式的匹配。最後達到去除html標簽和不相關的內容,只得到包括「java」這個關鍵字的內容的效果。
從網頁上爬取圖片的流程和爬取內容的流程基本相同,但是爬取圖片的步驟會多一步。
需要先用img標簽的正則表達式匹配獲取到img標簽,再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url,然後再通過緩沖輸入流對象讀取到這個圖片url的圖片信息,配合文件輸出流將讀到的圖片信息寫入到本地即可。