java獲取網站
Ⅰ 如何通過java獲取網站內容的兩種方法
通過java獲取網站內容的兩種方法,你可以去淘客神這樣的網站看看人家是怎麼實現的。
Ⅱ 使用java語言如何獲取用戶正在瀏覽的網站地址信息(這個網站不是自己的web應用,即用戶訪問別的應用..)
1L的在開玩笑嗎? 你用log4j還能記錄別的web的日誌?
如果用戶是從你的web程序通過點擊鏈接之類訪問的其他web的話 獲取就很簡單了 因為起始的地方是你的web程序 獲取的方法有很多
但如果是直接輸入的url 這個就沒法了 因為這一個請求就已經直接到別人的web了 不過你可以嘗試一下用js監控地址欄的變化 然後非同步傳回 不過這種監控可能不準確 因為別人跳轉的時候不一定你的ajax正好把完整的url傳回
或者你看一下 java.net網路編程方面的只是 應該可以監控到網路信息
Ⅲ 怎麼用java獲取登陸百度後的網頁
URL url = new URL("http://www..com/");HttpURLConnection huc = (HttpURLConnection) url.openConnection();然後關鍵是設置setRequestProperty
這個可以借用瀏覽器,像IE、chrome、firefox都可以的
主要是理解和網路端的請求和回復....模擬瀏覽器的話,每次瀏覽器去獲取一個url的時候,就會有一個Request頭,這個頭就會帶有瀏覽器信息啊cookie啊等等比如說用chrome,可以用F12進入控制台,然後看下面的NetWork欄
比如進入網路的時候你點擊第一個就會看到你瀏覽器和網路伺服器間的請求文件了
你如果復制的話,就用setRequestProperty("Accept", "text/html,application/.....")這樣一項一項去設置httpurlconnection的屬性
cookie也是一樣的
這樣,設置完以後,在connect方法連接網路,返回的時候就是登陸以後的頁面的,也就模擬了你的瀏覽器的登陸。如果你的瀏覽器是記住登陸狀態的話,那復制下來的cookie也是有效的,你也能一樣用java獲取頁面了其實用firefox、IE也是一樣的。其實cookie也是本地保存的,你可以寫個java從本地得到cookie然後進行訪問
這個和mfc的webbrowser瀏覽差不多,那個會自動去模擬IE,使用IE的cookie等等。
Ⅳ 如果運用java獲取其他網站的內容
簡單的jsoup爬取,靜態頁面形式;
String url="a.atimo.cn";//靜態頁面鏈接地址
Document doc = Jsoup.connect(url).userAgent("Mozilla").timeout(4000).get();
if(doc!=null){
Elements es = doc.select("div.comments>ul>li");// System.out.println(es);
if(es!=null && es.size()>0){
for (Element element : es) {
String link = element.select("div>h3").attr("href");
String title = element.select("div>h3").text();
String author = element.select("div.c-abstract>em").text();
String content = element.select("dd>a>div.icos>i:eq(1)").text();
}
}
}
通過jsop解析返回Document 使用標簽選擇器,選擇頁面標簽中的值,即可獲取頁面內容。
Ⅳ java如何獲取動態網頁內容
Htmlunit這個工具類,進行http請求訪問,獲取html網頁,以及過濾網頁html標簽獲取網頁文本。
主要的思路還是以下幾點:
1.了解你要爬取的網頁的元素,以及通訊,校驗安全機制。常用方法通過chrome瀏覽器訪問你要獲取的網頁,基本上一個老司機打開F12就差不多知道頁面的表單,數據以及通過什麼樣的請求方式請求服務,並又是怎麼樣返回,載入到頁面進行渲染。如果還不熟悉這個F12,那還不趕快去get起來啊,時間短,效率快,看一遍就知道怎麼用了的好東西不利用起來,不是太浪費了。
2.了解了你要訪問的網頁的你想要獲取的元素之後,就是怎麼發起http的request請求,模擬這個請求獲取response。那這個request就是通過在程序里模擬的瀏覽器器發起,如果成功發起,那麼你需要的數據就藏在這個response里。
3.成功獲取response之後,就是怎麼進行解析,獲取你想要的數據。當然,如果是json數據,那麼解析起來就很容易。如果返回的是整個html,那也是有辦法解析,抽取轉換成需要的文本進行入庫。
接下來,就通過實際的編碼,來如何一步步實現。
有些網站,是通過登陸來取得認證看到更多數據,有些網站可以直接發請求訪問。而我寫的這個列子,就是登陸之後,獲取的網站內部的數據。
基本思路就是,通過登陸拿到令牌,然後拿著這個令牌,去訪問這個網站內你需要訪問的地址,從而獲取數據。來,讓我們看看代碼是如何實現的。
Ⅵ java 怎樣獲取一個網頁的內容 要網頁裡面的表格數據 (通過源碼不能直接獲取數據),請教
根據java網路編程相關的內容,使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。
針對得到的html代碼,通過使用正則表達式即可得到我們想要的內容。
比如,我們如果想得到一個網頁上所有包括「java」關鍵字的文本內容,就可以逐行對網頁代碼進行正則表達式的匹配。最後達到去除html標簽和不相關的內容,只得到包括「java」這個關鍵字的內容的效果。
從網頁上爬取圖片的流程和爬取內容的流程基本相同,但是爬取圖片的步驟會多一步。
需要先用img標簽的正則表達式匹配獲取到img標簽,再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url,然後再通過緩沖輸入流對象讀取到這個圖片url的圖片信息,配合文件輸出流將讀到的圖片信息寫入到本地即可。
Ⅶ java如何獲取瀏覽器的訪問網址及其內容
通過request倆獲取,以下是request的方法介紹:
getParameterNames():取得客戶端所發出的請求參數名稱.
getParameter():可以讓您指定請求參數名稱,以取得對應的設定值.
getServerName():請求的伺服器.
getProtocol():使用協議.
getMethod():請求方法.
getServerPort():請求埠號.
getContextPath():Context路徑.
getServletPath(): Servlet路徑.
getRequestURI():URI路徑.
getQueryString():查詢字元串.
getRemoteAddr():使用者主機IP.
getRemotePort():使用者使用埠號.
Ⅷ java程序怎麼讀取html網頁
步驟:
一、使用java.net包下的URL類,可以將一個網頁(鏈接)封裝成一個URL對象。
二、URL對象有一個openStream()方法,使用該方法可以獲取該網頁的輸入流,我們可以通過讀取輸入流的方式獲得網頁的內容,並通過輸出流寫入HTML文件中。
Ⅸ java 獲取網頁鏈接
在java中實現,需要action處理 提供思路:點擊鏈接時提交給action,可以用
response.senRedirect("URL");方法進行重定向
也可在jsp中嵌套js實現,不過看題目似乎不需要這樣實現