防採集加密
1. 有什麼好方法防止自己網頁的內容被採集
防止自己網頁的內容被採集有非常多的方法
方法一:內容配圖加水印
當你的文章中含有圖片時候,可以給圖片打上水印,這樣就留下了你的信息,對方要採集或者復制您文章後,不可能一張一張的去處水印,這樣也算是變相地幫助我們宣傳網站。
方法二:內容隨機穿插版權信息
在不影響用戶閱讀體驗的情況下,盡量在內容段落之間隨機插入一些之間的信息,比如:網站名字,鏈接,版權作者,QQ等,這樣的話,就算對方使用採集器過濾也不可能每篇文章都能過濾得掉。
方法三:作品結尾留作者信息及鏈接
不過這個方法作用不是很大,因為很多人復制或轉載內容時直接去掉了,可以參考方法二,適當在段落結尾處不影響閱讀的情況下下隨機插入較好。
方法四:主動推送網址給網路收錄
網路給出的鏈接提交方式有以下三種:
1、主動推送:最為快速的提交方式,推薦您將站點當天新產出鏈接立即通過此方式推送給網路,以保證新鏈接可以及時被網路收錄。
2、sitemap:您可以定期將網站鏈接放到sitemap中,然後將sitemap提交給網路。網路會周期性的抓取檢查您提交的sitemap,對其中的鏈接進行處理,但收錄速度慢於主動推送。
3、手工提交:一次性提交鏈接給網路,可以使用此種方式。
方法五:利用JS加密網頁內容
這個方法是在個別網站上看到的,非常暴力。缺點:搜索引擎爬蟲無法識別收錄和通殺所有採集器,針對極度討厭搜索引擎和採集器的網站的站長使用,量力而行,您能豁出去了,別人也就沒辦法採集你了。
方法六:網站隨機採用不同模版
分析:因為採集器是根據網頁結構來定位所需要的內容,一旦先後兩次模版更換,採集規則就失效,不錯。而且這樣對搜索引擎爬蟲沒影響。
適用網站:動態網站,並且不考慮用戶體驗。
採集器會怎麼做:一個網站模版不可能多於10個吧,每個模版弄一個規則就行了,不同模版採用不同採集規則。如果多於10個模版了,既然目標網站都那麼費勁的更換模版,成全他,撤。
方法七:利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網站的隱藏分頁進行分析,這影響搜索引擎對其收錄。但是,採集者在編寫採集規則時,要分析目標網頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。
適用網站:對搜索引擎依賴度不高的網站,還有,採集你的人不懂腳本知識。
採集器會怎麼做:應該說採集者會怎麼做,他反正都要分析你的網頁代碼,順便分析你的分頁腳本,花不了多少額外時間。
方法八:限制IP地址單位時間的訪問次數
分析:沒有哪個常人一秒鍾內能訪問相同網站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的採集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網站的收錄。
適用網站:不太依靠搜索引擎的網站。
採集器會怎麼做:減少單位時間的訪問次數,減低採集效率。
希望可以幫到你!
2. 手機如何加密,瀏覽網站,防止抓取
方法/步驟
設備准備工作:一台帶有無線網卡的PC或者筆記本電腦,然後將電腦和手機連接到同一個Wi-Fi網路中,並且保證二者是在同一個ip網段內。
下載安裝Fiddler及fiddlercertmaker,其中fiddlercertmaker擴展主要是為了抓取https的加密連接,如果沒有這方面的需求,可以省略掉此擴展的下載安裝。網路關鍵字「Fiddler」,第一個是網路下載中心的軟體下載,可以直接下載,也可以到第二個的官網下載,官網有兩個版本,分別基於.Net4和.Net2,可酌情下載。
安裝過程就省略了,沒有任何需要功能設置的選項,只需選擇安裝路徑即可。安裝後,運行Fiddler。運行後的窗口如下圖。
點擊「Tools」菜單,選擇「Fiddler Options...」菜單,打開設置窗體。
在設置窗體中,切換到「」頁面,請對照頁面進行完全一樣的選項設置。
獲取電腦的IP地址,如圖所示:在打開的Fiddler窗口中,工具欄的最右邊,找到online按鈕,滑鼠移動到按鈕上,既有提示信息顯示了。記下這個IP地址,稍後需要在手機中設置此地址。
手機設置,設置代理服務地址及埠。因手上只有小米2一台,所以設置的截圖也是此手機的,具體的設置方法可能手機略有不同吧,這個就請自行研究了。
手機訪問了天貓,再看看電腦端,哈哈,就是這個數據了。
抓取https的數據包,需要下載一個擴展組件fiddlercertmaker,可以網路這個關鍵詞或是在官網下載。下載後,直接安裝即可。
在Fiddler中選項設置中,點擊菜單欄上的 Tools - Fiddler Options - HTTPS,勾選上Decrypt HTTPS traffic ,然後重啟Fiddler。
在手機瀏覽器中,直接訪問電腦端的IP地址+埠。比如我這里的:192.168.31.162:8888,在打開的頁面中點擊下載證書連接。
接下來可以手機訪問一個https的連接了。看看抓到的數據吧。至此,手機訪問的數據都可以在PC端進行抓取分析了。
3. 用MD5加密分頁文件名防採集,會影響搜索引擎蜘蛛對其收錄嗎
目前防採集的方法有很多種,先介紹一下常見防採集策略方法和它的弊端及採集對策:
一、判斷一個IP在一定時間內對本站頁面的訪問次數,如果明顯超過了正常人瀏覽速度,就拒絕此IP訪問
弊端:
1、此方法只適用於動態頁面,如:asp\jsp\php等…靜態頁面無法判斷某個IP一定時間訪問本站頁面的次數
2、此方法會嚴重影響搜索引擎蜘蛛對其收錄,因為搜索引擎蜘蛛收錄時,瀏覽速度都會比較快而且是多線程。此方法也會拒絕搜索引擎蜘蛛收錄站內文件
採集對策:只能放慢採集速度,或者不採
建議:做個搜索引擎蜘蛛的IP庫,只允許搜索引擎蜘蛛快速瀏覽站內內容。搜索引擎蜘蛛的IP庫的收集,也不太容易,一個搜索引擎蜘蛛,也不一定只有一個固定的IP地址。
評論:此方法對防採集比較有效,但卻會影響搜索引擎對其收錄。
二、用javascript加密內容頁面
弊端:此方法適用於靜態頁面,但會嚴重影響搜索引擎對其收錄情況,搜索引擎收到到的內容,也都是加密後的內容
採集對策:建議不採,如非要采,就把解密碼的JS腳本也採下來。
建議:目前沒有好的改良建議
評論:建議指望搜索引擎帶流量的站長不要使用此方法。
三、把內容頁面里的特定標記替換為」特定標記+隱藏版權文字「
弊端:此方法弊端不大,僅僅會增加一點點的頁面文件大小,但容易反採集
採集對策:把採集來的含有隱藏版權文字內容的版權文字替掉,或替換成自己的版權。
建議:目前沒有好的改良建議
評論:自己感覺實用價值不大,就算是加上隨機的隱藏文字,也等於畫蛇添足。
四、只允許用戶登陸後才可以瀏覽
弊端:此方法會嚴重影響搜索引擎蜘蛛對其收錄
採集對策:目前落伍已經有人發了對策文章 ,具體對策就看這個吧《ASP小偷程序如何利用XMLHTTP實現表單的提交以及cookies或session的發送》
建議:目前沒有好的改良建議
評論:建議指望搜索引擎帶流量的站長不要使用此方法。不過此方法防一般的採集程序,還是有點效果的。
五、用javascript、vbscript腳本做分頁
弊端:影響搜索引擎對其收錄
採集對策:分析javascript、vbscript腳本,找出其分頁規則,自己做個對應此站的分頁集合頁即可。
建議:目前沒有好的改良建議
評論:感覺懂點腳本語言的人都能找出其分頁規則
六、只允許通過本站頁面連接查看,如:Request.ServerVariables(」HTTP_REFERER」)
弊端:影響搜索引擎對其收錄
採集對策:不知道能不能模擬網頁來源。。。。目前我沒有對應此方法的採集對策
建議:目前沒有好的改良建議
評論:建議指望搜索引擎帶流量的站長不要使用此方法。不過此方法防一般的採集程序,還是有點效果的。
從以上可以看出,目前常用的防採集方法,要麼會對搜索引擎收錄有較大影響,要麼防採集效果不好,起不到防採集的效果。那麼,還有沒有一種有效防採集,而又不影響搜索引擎收錄的方法呢?那就請繼續往下看吧,精彩的地方馬上呈獻給大家。
下面就是我的防採集策略,防採集而又不防搜索引擎
從前面的我講的採集原理大家可以看出,絕大多數採集程序都是靠分析規則來進行採集的,如分析分頁文件名規則、分析頁面代碼規則。
一、分頁文件名規則防採集對策
大部分採集器都是靠分析分頁文件名規則,進行批量、多頁採集的。如果別人找不出你的分頁文件的文件名規則,那麼別人就無法對你的網站進行批量多頁採集。
實現方法:
我認為用MD5加密分頁文件名是一個比較好的方法,說到這里,有人會說,你用MD5加密分頁文件名,別人根據此規則也可以模擬你的加密規則得到你的分頁文件名。
我要指出的是我們加密分頁文件名時,不要只加密文件名變化的部分
如果I代表分頁的頁碼,那麼我們不要這樣加密
page_name=Md5(I,16)&」.htm」
最好給要加密的頁碼上再跟進一個或多個字元,如:page_name=Md5(I&「任意一個或幾個字母」,16)&」.htm」
因為MD5是無法反解密的,別人看到的會頁字母是MD5加密後的結果,所以加人也無法知道你在 I 後面跟進的字母是什麼,除非他用暴力****MD5,不過不太現實。
二、頁面代碼規則防採集對策
如果說我們的內容頁面無代碼規則,那麼別人就無法從你的代碼中提取他們所需要的一條條內容。
所以我們要的這一步做到防採集,就要使代碼無規則。
實現方法:
使對方需要提取的標記隨機化
1、定製多個網頁模板,每個網頁模板里的重要HTML標記不同,呈現頁面內容時,隨機選取網頁模板,有的頁面用CSS+DIV布局,有的頁面用table布局,此方法是麻煩了點,一個內容頁面,要多做幾個模板頁面,不過防採集本身就是一件很煩瑣的事情,多做一個模板,能起到防採集的作用,對很多人來說,都是值得的。
2、如果嫌上面的方法太麻煩,把網頁里的重要HTML標記隨機化,也可以。
做的網頁模板越多,html代碼越是隨機化,對方分析起內容代碼時,就越麻煩,對方針對你的網站專門寫採集策略時,難度就更大,在這個時候,絕大部分人,都會知難而退,因為這此人就是因為懶,才會採集別人網站數據嘛~~~再說一下,目前大部分人都是拿別人開發的採集程序去採集數據,自己開發採集程序去採集數據的人畢竟是少數。
還有些簡單的思路提供給大家:
1、把對數據採集者重要,而對搜索引擎不重要的內容用客戶端腳本顯示
2、把一頁數據,分為N個頁面顯示,也是加大採集難度的方法
3、用更深層的連接,因為目前大部分採集程序只能採集到網站內容的前3層,如果內容所在的連接層更深,也可以避免被採集。不過這樣可能會給客戶造成瀏覽上的不便。
如:
大多網站都是 首頁—-內容索引分頁—-內容頁
如果改成:
首頁—-內容索引分頁—-內容頁入口—-內容頁
註:內容頁入口最好能加上自動轉入內容頁的代碼
4. 火車頭採集網站代碼加密防採集怎麼破解
再加密也會被瀏覽器解析,可以用抓包工具來破解或者使用火車瀏覽器 八爪魚是不行的