pythonip數據
1. 在python中怎麼匹配IP地址
2. 如何使用Python實現爬蟲代理IP池
第一步:找IP資源
IP資源並不豐富,換句話說是供不應求的,因此一般是使用動態IP。
免費方法,直接在網路上找,在搜索引擎中一搜索特別多能夠提供IP資源的網站,進行採集即可。
付費方法,通過購買芝麻ip上的IP資源,並進行提取,搭建IP池。
3. Python 關於IP地址對錯的判斷
importre
defcheck_ip(ipAddr):
pattern=re.compile(r'(2(5[0-5]{1}|[0-4]d{1})|[0-1]?d{1,2})(.(2(5[0-5]{1}|[0-4]d{1})|[0-1]?d{1,2})){3}')
ifpattern.match(ipAddr):
returnTrue
else:
returnFalse
print(check_ip('111.111.111.111'))
4. 如何用Python獲取本機ip
import socket
localIP = socket.gethostbyname(socket.gethostname())#得到本地ip
print "local ip:%s "%localIP
5. python 爬蟲 ip池怎麼做
無論是爬取IP,都能在本地設計動態代理IP池。這樣既方便使用,又可以提升工作效率。那麼怎麼在本地設計一個代理IP池呢?IPIDEA為大家簡述本地代理IP池的設計和日常維護。
代理IP獲取介面,如果是普通代理IP,使用ProxyGetter介面,從代理源網站抓取最新代理IP;如果是需耗費代理IP,一般都有提供獲取IP的API,會有一定的限制,比如每次提取多少個,提取間隔多少秒。
代理IP資料庫,用以存放在動態VPS上獲取到的代理IP,建議選擇SSDB。SSDB的性能很突出,與Redis基本相當了,Redis是內存型,容量問題是弱項,並且內存成本太高,SSDB針對這個弱點,使用硬碟存儲,使用Google高性能的存儲引擎LevelDB,適合大數據量處理並把性能優化到Redis級別。
代理IP檢驗計劃,代理IP具備時效性,過有效期就會失效,因此 需要去檢驗有效性。設置一個定時檢驗計劃,檢驗代理IP有效性,刪除無效IP、高延時IP,同時預警,當IP池裡的IP少於某個閾值時,根據代理IP獲取介面獲取新的IP。
代理IP池外部介面除代理撥號伺服器獲取的代理IP池,還需要設計一個外部介面,通過這個介面調用IP池裡的IP給爬蟲使用。代理IP池功能比較簡單,使用Flask就可以搞定。功能可以是給爬蟲提供get/delete/refresh等介面,方便爬蟲直接使用。
6. python介面怎麼設置IP地址
使方法一、用IP138資料庫查詢域名或IP地址對應的地理位置。
?#-*- coding:gbk -*-import urllib2import re try: while True: ipaddr = raw_input("Enter IP Or Domain Name:") if ipaddr == "" or ipaddr == 'exit': break else: url = "http://www.ip138.com/ips138.asp?ip=%s&action=2" % ipaddr u = urllib2.urlopen(url) s = u.read() #Get IP Address ip = re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}',s) print "\n****** Below Result From IP138 Database *****" print "IP Address:",ip[0] #Get IP Address Location result = re.findall(r'(<li>.*?</li>)',s) for i in result: print i[4:-5] print "*"*45 print "\n" except: print "Not Data Find"
方法二、本來想調用阿里的ip介面查詢ip歸屬地。結果發現阿里的介面非常不給力,主要是不準確,不過是免費的且有地區和ISP的信息。以下是實現代碼
7. python中,進行爬蟲抓取怎麼樣能夠使用代理IP
網路數據量越來越大,從網頁中獲取信息變得越來越困難,如何有效地抓取並利用信息,已成為網路爬蟲一個巨大的挑戰。下面IPIDEA為大家講明爬蟲代理IP的使用方法。
1.利用爬蟲腳本每天定時爬取代理網站上的ip,寫入MongoDB或者其他的資料庫中,這張表作為原始表。
2.使用之前需要做一步測試,就是測試這個ip是否有效,方法就是利用curl訪問一個網站查看返回值,需要創建一張新表,循環讀取原始表有效則插入,驗證之後將其從原始表中刪除,驗證的同時能夠利用響應時間來計算這個ip的質量,和最大使用次數,有一個演算法能夠參考一種基於連接代理優化管理的多線程網路爬蟲處理方法。
3.把有效的ip寫入ip代理池的配置文件,重新載入配置文件。
4.讓爬蟲程序去指定的dailiy的服務ip和埠,進行爬取。
8. python中判斷一個字元串是否是IP地址
首先給出一個c函數的原型:int sscanf(const char *buffer,const char *format,[argument ]...)它的返回值是參數的數據,也就是argument的個數,buffer:存儲的數據,format:格式控制字元串,argument:選擇性設定字元串。這個程序從標准流讀取數據,可以進行無限制的輸入。下面貼出代碼,然後引出另外一個問題,將字元串ip轉換成整形ip地址。[cpp]
#include<stdio.h
#include<string.h
int main(void){
char str[32];
int a,b,c,d;int ret=0;
while(fgets(str,sizeof(str),stdin)!=NULL){
int len=strlen(str);
str[len]='\0';
ret=sscanf(str,%d.%d.%d.%d,&a,&b,&c,&d);
if(ret==4&&(a=0&&a<=255)&&(b=0&&b<=255)&&(c=0&&c<=255)&&(d=0&&d<=255)){
printf(it is ip!\n);}else
printf(it is not ip!\n);}return 0;}gcc -Wall ip.c -o ip12.3.4.5
下面來引出另外一個問題,在很多情況下,要求把字元串ip轉換成整形ip,這個問題也可以應用sscanf這個函數,首先把四個欄位存儲到a,b,c,d四個變數當中去,然後進行移位運算,因為ip地址是32位的,而且是無符號整形變數,所以可以應用unsigned int 來存儲. unsinged int ip=(a<<24)+(b<<16)+(c<<8)+d。
9. python里ip地址數字,lambda表達式看不懂
將輸入的ip字元串,按.分割,變成list,然後倒序
排列,然後進行演算法 256*j*int(i)
所以
0.1.2.3
相當於
256^0*3+256^1*2+256^2*1+256^4*0