java數據抓取

發布時間: 2022-08-27 07:57:27

『壹』 java jsoup怎樣爬取特定網頁內的數據

1、Jsoup簡述

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。
Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。

2、快速開始

1)分析HTML頁面，明確哪些數據是需要抓取的

2)使用HttpClient讀取HTML頁面
HttpClient是一個處理Http協議數據的工具，使用它可以將HTML頁面作為輸入流讀進java程序中.

3)使用Jsoup解析html字元串
通過引入Jsoup工具，直接調用parse方法來解析一個描述html頁面內容的字元串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內容。

3、保存爬取的頁面數據

1)保存普通數據到資料庫中
將爬取的數據封裝進實體Bean中，並存到資料庫內。

2)保存圖片到伺服器上
直接通過下載圖片的方式將圖片保存到伺服器本地。

『貳』如何用Java實現數據採集

Java網頁數據採集器例子如下：
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* Group 類用於匹配和抓取 html頁面的數據
*/
public class Group {

public static void main(String[] args) {
// Pattern 用於編譯正則這里用到了3個正則分別用括弧()包住
// 第1個正則用於匹配URL 當然這里的正則不一定準確這個匹配URL的正則就是錯誤的只是在這里剛好能匹配出來
// 第2個正則是用於匹配標題 SoFlash的
// 第3個正則用於匹配日期
/* 這里只用了一條語句便把url,標題和日期全部給匹配出來了 */
Pattern p = Pattern
.compile("='(\\w.+)'>(\\w.+[a-zA-Z])-(\\d{1,2}\\.\\d{1,2}\\.\\d{4})");
String s = "<a href='http://www.cnblogs.com/longwu'>SoFlash-12.22.2011</a>";
Matcher m = p.matcher(s);
while (m.find()) {
// 通過調用group()方法里的索引將url,標題和日期全部給列印出來
System.out.println("列印出url鏈接:" + m.group(1));
System.out.println("列印出標題:" + m.group(2));
System.out.println("列印出日期:" + m.group(3));
System.out.println();
}
System.out.println("group方法捕獲的數據個數:" + m.groupCount() + "個");
}
}

下輸出結果:
列印出url鏈接:http://www.cnblogs.com/longwu
列印出標題:SoFlash
列印出日期:12.22.2011
group方法捕獲的數據個數:3個

『叄』怎樣用Java代碼抓取網頁中iframe中的數據

你是要抓網頁源代碼，還是瀏覽器渲染後的body；
如果是網頁源代碼，很簡單，用java自帶的http就好了；
如果是渲染後的body（包括js和ajax執行後的頁面），需要調用無界面瀏覽器，然後通過api獲得返回的數據

『肆』 java爬蟲抓取指定數據

根據java網路編程相關的內容，使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。

針對得到的html代碼，通過使用正則表達式即可得到我們想要的內容。

比如，我們如果想得到一個網頁上所有包括「java」關鍵字的文本內容，就可以逐行對網頁代碼進行正則表達式的匹配。最後達到去除html標簽和不相關的內容，只得到包括「java」這個關鍵字的內容的效果。

從網頁上爬取圖片的流程和爬取內容的流程基本相同，但是爬取圖片的步驟會多一步。

需要先用img標簽的正則表達式匹配獲取到img標簽，再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url，然後再通過緩沖輸入流對象讀取到這個圖片url的圖片信息，配合文件輸出流將讀到的圖片信息寫入到本地即可。

『伍』 java爬蟲怎麼抓取登陸後的網頁數據

一般爬蟲都不會抓登錄以後的頁面，
如果你只是臨時抓某個站，可以模擬登錄，然後拿到登錄以後的Cookies，再去請求相關的頁面。

『陸』如何用Java實現抓取指定埠的數據包

你可以用抓包工具wireshark來抓取，然後通過過濾，選擇自己要的數據包

『柒』如何通過Java代碼實現對網頁數據進行指定抓取

通過Java代碼實現對網頁數據進行指定抓取方法步驟如下：
1在工程中導入Jsoup.jar包

2獲取網址url指定HTML或者文檔指定的body

3獲取網頁中超鏈接的標題和鏈接

4獲取指定博客文章的內容

5獲取網頁中超鏈接的標題和鏈接的結果

『捌』用Java來實現抓取數據的問題

你可以利用jsoup來抓取HTML頁面的信息
Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");

Elements links = doc.select("a[href]"); // 具有 href 屬性的鏈接
Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 圖片的元素

Element masthead = doc.select("div.masthead").first();
// 找出定義了 class=masthead 的元素

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

『玖』如何使用Java抓取網頁上指定部分的內容

1. 你可以選擇用Java代碼來找到整個網頁的html代碼，如下
(注意在處理網頁方面的內容時，需要導入htmlparser包來支持)

import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}

以上代碼，public static NodeList getNodeList(String url) 為主體
傳入需要分析網頁的 url(String類型)，返回值是網頁Html節點List(Nodelist類型)
這個方法我沒有什麼要說的，剛開始的時候沒看懂（沒接觸過），後來用了幾次也懂點皮毛了
注意： parser.setEncoding("GBK"); 可能你的工程編碼格式是UTF-8,有錯誤的話需要改動

運行該程序

2.通過瀏覽器工具直接查看 IE是按F12 （剛開始沒發現這個方法，於是傻乎乎地找上面的代碼）

分析你所獲得的html代碼讓人眼花繚亂，不要緊，找到自己需要趴取的內容，找到它上下文有特徵的節點


<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易幣種</th>
<th width="80" align="center">交易單位</th>
<th width="130" align="center">現價(人民幣)</th>
<th width="80" align="center">賣出價</th>
<th width="100" align="center">現匯買入價</th>
<th width="95" align="center">現鈔買入價</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港幣</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麥克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>

</tbody>
</table>
</div>


大家可以看到這是一段很有規律，書寫非常規范的Html代碼（這只是第一部分，中行牌價，可以想像，接下來還會有並列的相似的3部分）

大家想截取這些節點中的數據
以下代碼仍需導入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}

public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}

public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}

廢話不多說，
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意，代碼編碼格式

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html節點的列表，現在使用NodeFilter ( 節點過濾器 )實例，重載NodeFilter類中的accept()方法
在parser這個Parser類訪問整個html頁面的時候，每遇到一個html節點，就會訪問這個
accept()方法，返回True的話就會將這個節點放進nodelist中，否則就不會將這個節點放進去。這個就是NodeFilter功能。
代碼段一獲取整個html頁面時候 parser.visitAllNodesWith(visitor); 就是獲取所有節點

所以現在我們要趴取網頁上的內容，只要告訴accept()這個方法，哪些節點要放進nodelist去，即遇到哪些節點需要返回true。
於是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser類在遇到節點，就把這個節點拿過去問accept()，於是accept()方法分析，如果滿足getStringsByRegex(node.getText())就要了

接下來分析getStringsByRegex()，只剩下最後一步了，大家堅持啊！

String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以發現我們索要的每一段都是
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">這個節點就行了，我們用正則表達式去比較
String regex="td class=\"no\""; 這個是比較標准（正則表達式 td class=」no」其中兩個引號需要作為轉義字元來表示成\「）
變數txt是我們傳過去的需要比較的節點的node.getText()，如果符合的話m.find就是true,於是getStringsByRegex()返回true，說明這個節點就是我們所需要的哪些節點，於是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html，6個為一組，先是962.6，然後是993.26，1001.24，992.7，100，英鎊分別被add進result這個ArrayList<String>中去，返回，這個ArrayList裝的就是我們需要抓取的數據

大家可以把我們所獲得的String數據數出來試試看，是不是我們需要的順序，main()函數獲得ArrayList<String>，就可以顯示到我們所需要的Java widget上去了

閱讀全文

熱點內容

阿里雲存儲混合雲存儲發布：2025-01-17 04:12:10 瀏覽：565

騰訊編譯面試發布：2025-01-17 04:11:27 瀏覽：872

python虛擬環境開發發布：2025-01-17 04:04:34 瀏覽：690

編譯運行後保存exe文件發布：2025-01-17 04:00:18 瀏覽：565

asm源碼編譯發布：2025-01-17 03:54:24 瀏覽：287

如何配置svi介面的ip地址發布：2025-01-17 03:48:09 瀏覽：44

微軟怎麼解壓縮文件發布：2025-01-17 03:43:06 瀏覽：204

有沒有手機可以用的java編譯器發布：2025-01-17 03:38:56 瀏覽：542

手把手教你學c語言版發布：2025-01-17 03:38:52 瀏覽：781

最優化遺傳演算法發布：2025-01-17 03:35:24 瀏覽：547

java數據抓取

與java數據抓取相關的資訊