android爬蟲

發布時間: 2022-02-15 08:34:47

1. 我的電腦為什麼所有的手游模擬器都沒有網路，改DNS IP都沒用

是電腦老化了，還有去查證一下是不是因為欠費被關網，還是當地線路在維修。

2. 遠程主機強迫關閉了一個現有的連接。怎麼解決

1、網路提供商（電信、網通、……）出的問題
2、如果你自己接了路由器，這個路由器也是肇事者
3、電腦上程序的問題。防火牆，或者是病毒引起。
根據這些可能找找。如有不全，希望其他人能指出，以幫助解決。

3. 如何利用安卓手機進行app裡面的爬蟲採集

思路：

開發簡單爬取效率低的辦法找app自動化測試工具直接模擬人操作得到數據

如果對爬起取效率高或者對網路熟，可以用wireshark之類公具分析他的通信協議，是http還是自定義協議，然後偽造請求。

4. 畢業設計：android 網路電影爬蟲抓包

建議你換一個，網路爬蟲抓包這些開發都非常復雜，還不如來點簡單實用的，本人做了很多android的應用開發，可以勾通一下，看看哪個比較適合。

5. 用python寫的爬蟲將數據傳給android怎麼實現

初期不需要登錄的網站比較簡單，掌握http get post和urllib怎麼模擬，掌握lxml、BeautifulSoup等parser庫就可以了，多用firefox的firebug或者chrome的調試工具看瀏覽器是怎麼發包的。上面都是不需要登錄不需要下文件就可以做到的。

6. 基於WebCollector開發的爬蟲能夠在android上運行嗎

有些人問，開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：

上面說的爬蟲，基本可以分3類：

1.分布式爬蟲：Nutch

2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

爬蟲使用分布式，主要是解決兩個問題：

1)海量URL管理

2)網速

現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：

1)Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。

2)Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。

3)Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

5)很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。

6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase)，只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。

7. 怎麼查出一張圖片上的人是誰

在有一些電影裡面，特別是科幻高科技電影裡面經常出現的一幕，獲得某人的照片然後進行各種數據對比，然後找出這個人的個人信息：姓名、年齡、性別、工作等等。

理論上：你可以建立一個你感興趣的百萬級的資料庫，給你個照片，你就可以得到她是誰，哪裡的，信息都可以知道，而且因為人與人之間的網狀的關聯，你甚至可以知道她喜歡的人是誰，男朋友長啥樣子。

相信我：一切都不是虛構的，你能做的更多！

思路：
一、數據收集，可以採用爬蟲對網上海里的明星信息進行有針對的爬取

二、格式化數據，存入mysq，把明星的自拍照的文件名存入資料庫中

三、使用網路的api對程序進行編寫，說實話，網路人臉識別做的很棒了，精確度很高

四、你上傳一張圖片（或者你能想像到的方式），後面的程序會對你海量的資料庫中人的信息進行比對

五、輸出匹配到的人的信息，和相似度的數值。

8. 如何設計一款爬蟲Android APP

手機應該算客戶端，爬蟲一般針對伺服器的吧。我覺得不能，除非手機信息傳到了伺服器，並開放。

9. Android創建登錄項目的管理員和用戶登錄後台如何在manifest文件里聲明

摘要親您好很高興為您解答

10. 超凡蜘蛛俠1安卓版與爬蟲賽跑怎麼過

大致找位置在空中盪就行了，咱們最後停在樓下了，它從樓頂飛過去了

閱讀全文

熱點內容

手機熱點密碼忘了怎麼辦發布：2025-03-15 09:28:26 瀏覽：362

緩解壓力鍛煉方法發布：2025-03-15 09:23:01 瀏覽：425

impdp存儲過程發布：2025-03-15 09:20:05 瀏覽：741

pythoniris 發布：2025-03-15 09:05:27 瀏覽：190

浪淘沙伺服器怎麼沒有了發布：2025-03-15 09:05:26 瀏覽：100

ftprpm安裝包下載發布：2025-03-15 09:03:53 瀏覽：722

如何判斷背包配置發布：2025-03-15 09:03:00 瀏覽：900

淘寶api源碼發布：2025-03-15 09:00:00 瀏覽：159

壓縮復原修車發布：2025-03-15 08:46:52 瀏覽：78

linux調試匯編發布：2025-03-15 08:38:09 瀏覽：107

android爬蟲

與android爬蟲相關的資訊