python36urllib
『壹』 python怎麼做介面測試工具
之前使用過urllib和urllib2做介面測試,在做的途中,感覺使用urllib2直接進行的get,post 請求並沒有那麼好用。作為測試人員,所需要的測試工具應當以方便為第一要務,測試的耗時只要是真正的無人值守,耗時不是太久的都可以接受。所以,本人又嘗試了一個新的包:requests。
Requests 是用Python語言編寫,基於 urllib,採用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便,可以節約我們大量的工作,完全滿足 HTTP 測試需求。Requests 的哲學是以 PEP 20 的習語為中心開發的,所以它比 urllib 更加 Pythoner。更重要的一點是它支持 Python3 !推薦一篇文章,上面有該包的詳細說明傳送門,以下只會寫到我用到的部分,所以更多的了解需要自己去搜資料
好了,我們開始吧!!
介面測試中重要的部分:
1.get和post方法
2.用到的參數
3.請求頭
4.cookie
5.日誌輸出
6.如何調試你的程序--藉助fiddler
按照以上的順序,我將一一說明我的搞法,因為編碼能力有限,所以可能看著很low
一、get和post
requests包很好的實現了post和get方法,示例:
1 import requests2 response_get = requests.get(url, data, headers, cookies)3 response_post = requests.post(url, data, headers, cookies)
其他的訪問方式如put,head等等,用法幾乎都是如此,因為沒用到,所以省略
現在一般的介面返回值有頁面和json倆種,按照需求,可以分別使用response.text或者response.content獲取,text獲取的是unicode類型的返回值,而content返回值是str類型,所以我一般使用content來獲取返回值,因為這樣獲取的返回值可以直接使用正則或者in的方式來驗證返回值結果是否正確。
我自己為了實現介面的自動訪問,所以又在requests上面加了一層封裝,就像下面這樣:
三、cookie
一款產品的介面測試中必定會使用登錄狀態,需要使用cookie實現,之前寫過使用cookiejar獲取cookie,requests中獲取cookie的方法更為簡單,不過首先你得知道是哪個介面set了cookie,不過一般是登錄啦。登錄介面訪問之後set了cookie,那好,就去調用登錄介面,然後拿到搞回來的cookie:
# 只需要這樣!!login = requests.post(login_url, data=login_data, headers=login_header)
cookie = login.cookies
這個cookie就是登錄狀態了,拿著隨便用,需要登錄的就直接cookies=cookies
四、日誌輸出
這里注意看第二步中介面數據,有介面描述,也有介面是啥,第一步中又把content做成返回值了,具體拼接方式自己想吧,東西全有了,想寫啥寫啥,還可以加上獲取本地時間的api獲取介面運行時間,log文件該長啥樣是門學問,這里就不獻丑了。
五、借用fiddler調試你的腳本
requests允許使用代理訪問,這有啥用,真有!fiddler是一款截包改包的工具,而且通過擴展可以進行請求間的比對,這樣讓你的程序訪問的請求和真正正確的請求作對比,為啥我的程序訪問出錯?是不是缺了請求頭?參數是不是丟了?cookie是不是少了?很容易看出來。寫法如下:
proxies = { "http": "http://127.0.0.1:8888", "https": "http://127.0.0.1:8888"}
requests.post(url, proxies=proxies)
這樣就可以走代理了,除fiddler以外還有charles和burp suite可以使用,具體看個人喜好吧。
『貳』 python3 已經安裝了requests模塊,還是會提示MoleNotFoundError: No mole named 'urllib3'
先把已將安裝的requests模塊刪除
打開python3x.exe文件的安裝目錄
『叄』 python linux怎麼操作
1. os 模塊
1.1. os模塊的exec方法族
Python的exec系統方法同Unix的exec系統調用是一致的。這些方法適用
於在子進程中調用外部程序的情況,因為外部程序會替換當前進程的代碼,不會返回。( 這個看了點 help(os) --> search
"exec" 的相關介紹,但是沒太搞明白咋使用)
1.2. os模塊的system方法
system方法會創建子進程運行外部程序,方法只返回外部程序的運行結果。這個方法比較適用於外部程序沒有輸出結果的情況。
[python]
view plain
>>> import os
>>> os.system("echo \"Hello World\"") # 直接使用os.system調用一個echo命令
Hello World ——————> 列印命令結果
0 ——————> What's this ? 返回值?
>>> val = os.system("ls -al | grep \"log\" ") # 使用val接收返回值
-rw-r--r-- 1 root root 6030829 Dec 31 15:14 log ——————> 此時只列印了命令結果
>>> print val
0 ——————> 注意,此時命令正常運行時,返回值是0
>>> val = os.system("ls -al | grep \"log1\" ")
>>> print val
256 ——————> 使用os.system調用一個沒有返回結果的命令,返回值為256~
>>>
注意:上面說了,此方法脂肪會外部程序的結果,也就是os.system的結果,所以如果你想接收命令的返回值,接著向下看~
1.3. os模塊的popen方法
當需要得到外部程序的輸出結果時,本方法非常有用,返回一個類文件對象,調用該對象的read()或readlines()方法可以讀取輸出內容。比如使用urllib調用Web API時,需要對得到的數據進行處理。os.popen(cmd) 要得到命令的輸出內容,只需再調用下read()或readlines()等 如a=os.popen(cmd).read()
[python]
view plain
>>> os.popen('ls -lt') # 調用os.popen(cmd)並不能得到我們想要的結果
<open file 'ls -lt ', mode 'r' at 0xb7585ee8>
>>> print os.popen('ls -lt').read() # 調用read()方法可以得到命令的結果
total 6064
-rwxr-xr-x 1 long long 23 Jan 5 21:00 hello.sh
-rw-r--r-- 1 long long 147 Jan 5 20:26 Makefile
drwxr-xr-x 3 long long 4096 Jan 2 19:37 test
-rw-r--r-- 1 root root 6030829 Dec 31 15:14 log
drwxr-xr-x 2 long long 4096 Dec 28 09:36 pip_build_long
drwx------ 2 Debian-gdm Debian-gdm 4096 Dec 23 19:08 pulse-gylJ5EL24GU9
drwx------ 2 long long 4096 Jan 1 1970 orbit-long
>>> val = os.popen('ls -lt').read() # 使用變數可以接收命令返回值
>>> if "log" in val: # 我們可以使用in來判斷返回值中有木有一個字元串
... print "Haha,there is the log"
... else:
... print "No,not happy"
...
Haha,there is the log
2. commands 模塊
使用commands模塊的getoutput方法,這種方法同popend的區別在於popen返回的是一個類文件對象,而本方法將外部程序的輸出結果當作字元串返回,很多情況下用起來要更方便些。
主要方法:
* commands.getstatusoutput(cmd) 返回(status, output)
* commands.getoutput(cmd) 只返回輸出結果
* commands.getstatus(file) 返回ls -ld file的執行結果字元串,調用了getoutput,不建議使用此方法
[python]
view plain
long@zhouyl:/tmp/tests$ python
Python 2.7.3 (default, Jan 2 2013, 16:53:07)
[GCC 4.7.2] on linux2
Type "help", "right", "credits" or "license" for more information.
>>> import commands
>>> commands.getstatusoutput('ls -lt') # 返回(status, output)
(0, 'total 5900\n-rwxr-xr-x 1 long long 23 Jan 5 21:34 hello.sh\n-rw-r--r-- 1 long long 147 Jan 5 21:34 Makefile\n-rw-r--r-- 1 long long 6030829 Jan 5 21:34 log')
>>> commands.getoutput('ls -lt') # 返回命令的輸出結果(貌似和Shell命令的輸出格式不同哈~)
'total 5900\n-rwxr-xr-x 1 long long 23 Jan 5 21:34 hello.sh\n-rw-r--r-- 1 long long 147 Jan 5 21:34 Makefile\n-rw-r--r-- 1 long long 6030829 Jan 5 21:34 log'
>>> commands.getstatus('log') # 調用commands.getoutput中的命令對'log'文件進行相同的操作
'-rw-r--r-- 1 long long 6030829 Jan 5 21:34 log'
>>>
3. subprocess模塊
根據Python官方文檔說明,subprocess模塊用於取代上面這些模塊。有一個用Python實現的並行ssh工具—mssh,代碼很簡短,不過很有意思,它在線程中調用subprocess啟動子進程來幹活。
[python]
view plain
>>> from subprocess import call
>>> call(["ls", "-l"])
subprocess與system相比的優勢是它更靈活(你可以得到標准輸出,標准錯誤,「真正」的狀態代碼,更好的錯誤處理,等..)。我認為使用os.system已過時,或即將過時。
『肆』 如何用Python抓取動態頁面信息
解決思路:
有一個思路最為簡單的思路可以動態解析頁面信息。urllib不可以解析動態信息,但是瀏覽器可以。在瀏覽器上展現處理的信息其實是處理好的HTML文
檔。這為我們抓取動態頁面信息提供了很好的思路。在Python中有一個很有名的圖形庫——PyQt。PyQt雖然是圖形庫,但是他裡面
QtWebkit。這個很實用。谷歌的Chrome和蘋果的Safari都是基於WebKit內核開發的,所以我們可以通過PyQt中得QtWebKit
把頁面中的信息讀取載入到HTML文檔中,再解析HTML文檔,從HTML文檔中提取我們想用得信息。
所需材料:
作者本人實用Mac OS X。應該在Windows和Linux平台也可以採用相同的辦法。
1、Qt4 library
Library,而不是Creator。Library在Mac的默認安裝路徑下,應該是/home/username/Developor/,不要改變Qt4的默認安裝路徑。否則可能安裝失敗。
官方網址:http://qt-project.org/downloads
2、SIP、PyQt4
這兩個軟體可以在在PyQt的官網找到。下載的是它的源碼。Mac和Linux需要自己編譯。
下載地址是:http://www.riverbankcomputing.co.uk/software/pyqt/download
在終端切換到文件解壓後的目錄中。
在終端中輸入
python configure.py
make
sudo make install
進行安裝編譯。
SIP和PyQt4兩個安裝方法相同。但是PyQt4依賴SIP。所以先安裝SIP再安裝PyQt4
1、2兩步完成之後,Python的PyQt4的模塊就安裝好了。在Python shell中輸入import PyQt4看看能不能找到PyQt4的模塊。
3、Spynner
spynner是一個QtWebKit的客戶端,它可以模擬瀏覽器,完成載入頁面、引發事件、填寫表單等操作。
這個模塊可以在Python的官網找到。
下載地址: https://pypi.python.org/pypi/spynner/2.5
解壓後,cd到安裝目錄,然後輸入sudo python configure.py install安裝該模塊。
這樣Spynner模塊就安裝完成了,在python shell中試試import spynner看看該模塊有沒有安裝完成。
Spynner的簡單使用
Spynner的功能十分強大,但是由於本人能力有限,就介紹一下如何顯示網頁的源碼吧。
#! /usr/bin/python
#-*-coding: utf-8 -*-
import spynner
browser = spynner.Browser()
#創建一個瀏覽器對象
browser.hide()
#打開瀏覽器,並隱藏。
browser.load("http://www..com")
#browser 類中有一個類方法load,可以用webkit載入你想載入的頁面信息。
#load(是你想要載入的網址的字元串形式)
print browser.html.encode("utf-8")
#browser 類中有一個成員是html,是頁面進過處理後的源碼的字元串.
#將其轉碼為UTF-8編碼
open("Test.html", 'w+').write(browser.html.encode("utf-8"))
#你也可以將它寫到文件中,用瀏覽器打開。
browser.close()
#關閉該瀏覽器
通過這個程序,就可以比較容易的顯示webkit處理的頁面HTML源碼了。
spynner應用
下面介紹一下spynner的簡單應用,通過簡單的程序,可以獲取你在瀏覽器中看到的頁面的全部圖片。用HTMLParser、BeautifulSoup等都可以完成HTMLParser文檔的解析。而我選擇HTMParser。
#!/usr/bin/python
import spynner
import HTMLParser
import os
import urllib
class MyParser(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
url = dict(attrs)['src']
name = os.path.basename(dict(attrs)['src'])
if name.endswith('.jpg') or name.endswith('.png') or name.endswith('gif'):
print "Download.....", name
urllib.urlretrieve(url, name)
if __name__ == "__main__":
browser = spynner.Browser()
browser.show()
browser.load("http://www.artist.cn/snakewu1994/StyleBasis_Four/en_album_607236.shtml")
Parser = MyParser()
Parser.feed(browser.html)
print "Done"
browser.close()
通過這個程序,可以下載你在頁面上看到的全部圖片。簡單的幾行程序就完成了這個艱巨的任務。實現了圖片的批量處理。這真是Python語言的優勢,再艱巨的任務交給第三方吧。
『伍』 如何避免python中的while循環卡死
你沒貼代碼,也不好說明什麼問題。在進行Web請求時,必須設定超時。這里推薦使用urllib2,它的urlopen函數可以設定超時時間。程序「卡死」有可能是這個原因。內置庫本身不太可能導致卡死。
一些會大量消耗內存的程序,最好有一個重啟機制。因為內存泄露的問題很難避免。運行時間長了有可能會消耗很多內存。一些開源程序就是採用一個不幹活的主進程監控,子進程幹活。這樣即使子進程有了問題,可以使用主進程重建流程。持續運行的程序可以考慮這種方法。
望採納!
『陸』 Python有哪些好用的語言翻譯方法
1 import re
2 import urllib.parse, urllib.request
3 import hashlib
4 import urllib
5 import random
6 import json
7 import time
8 from translate import Translator
非python自帶的庫,如python google translator,需要手動安裝,命令pip install mole_name。
1. 網路翻譯
1 appid = 'your_appid'
2 secretKey = 'your_secretKey'
3 url_ = 'http://api.fanyi..com/api/trans/vip/translate'
4
5 def translateBai(text, f='ja', t='zh'):
6 salt = random.randint(32768, 65536)
7 sign = appid + text + str(salt) + secretKey
8 sign = hashlib.md5(sign.encode()).hexdigest()
9 url = url_ + '?appid=' + appid + '&q=' + urllib.parse.quote(text) + '&from=' + f + '&to=' + t + \
10 '&salt=' + str(salt) + '&sign=' + sign
11 response = urllib.request.urlopen(url)
12 content = response.read().decode('utf-8')
13 data = json.loads(content)
14 result = str(data['trans_result'][0]['dst'])
15 print(result)
參數:text--待翻文本,f--初始語言,t--目標語言,後面方法類似。
2. 有道翻譯
1 url_you = 'http://fanyi.you.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=' \
2 'http://www.you.com/'
3 dict = {}
4 dict['type'] = 'AUTO'
5 dict['doctype'] = 'json'
6 dict['xmlVersion'] = '1.8'
7 dict['keyfrom'] = 'fanyi.web'
8 dict['ue'] = 'UTF-8'
9 dict['action'] = 'FY_BY_CLICKBUTTON'
10 dict['typoResult'] = 'true'
11
12 def translateYou(text):
13 global dict
14 dict['i'] = text
15 data = urllib.parse.urlencode(dict).encode('utf-8')
16 response = urllib.request.urlopen(url_you, data)
17 content = response.read().decode('utf-8')
18 data = json.loads(content)
19 result = data['translateResult'][0][0]['tgt']
20 print(result)
參數主要由字典dict指定,發現沒有地方可以指定語言(可能是我沒找到),測試結果是不管輸入什麼語言的文本,輸出均是中文。
3. 谷歌翻譯
1 url_google = 'http://translate.google.cn'
2 reg_text = re.compile(r'(?<=TRANSLATED_TEXT=).*?;')
3 user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' \
4 r'Chrome/44.0.2403.157 Safari/537.36'
5
6 def translateGoogle(text, f='ja', t='zh-cn'):
7 values = {'hl': 'zh-cn', 'ie': 'utf-8', 'text': text, 'langpair': '%s|%s' % (f, t)}
8 value = urllib.parse.urlencode(values)
9 req = urllib.request.Request(url_google + '?' + value)
10 req.add_header('User-Agent', user_agent)
11 response = urllib.request.urlopen(req)
12 content = response.read().decode('utf-8')
13 data = reg_text.search(content)
14 result = data.group(0).strip(';').strip('\'')
15 print(result)
和上面兩種方法一樣,採用的是訪問網頁的形式來進行翻譯。
還有一種是利用python谷歌翻譯模塊Translator:
1 def translateGoogle2(text):
2 result = translator.translate(text)
3 print(result)
4. 測試代碼
測試過程:
翻譯5個字串為一個小的單位,輸出消耗時間;
循環10次為一個大的單位,輸出消耗時間;
對不同的語言字串和循環次數做過多次測試,發現情況基本類似,所以這里選擇了10次。
1 text_list = ['こんにちは', 'こんばんは', 'おはようございます', 'お休(やす)みなさい', 'お元気(げんき)ですか']
2
3 time_ = 0
4 time_you = 0
5 time_google = 0
6 time_google2 = 0
7
8 for i in list(range(1, 11)):
9 time1 = time.time()
10 for text in text_list:
11 translateBai(text)
12 time2 = time.time()
13 print('網路翻譯第%s次時間:%s' % (i, time2 - time1))
14 time_ += (time2 - time1)
15
16 time1 = time.time()
17 for text in text_list:
18 translateYou(text)
19 time2 = time.time()
20 print('有道翻譯第%s次時間:%s' % (i, time2 - time1))
21 time_you += (time2 - time1)
22
23 time1 = time.time()
24 for text in text_list:
25 translateGoogle(text)
26 time2 = time.time()
27 print('谷歌翻譯第%s次時間:%s' % (i, time2 - time1))
28 time_google += (time2 - time1)
29
30 time1 = time.time()
31 for text in text_list:
32 translateGoogle2(text)
33 time2 = time.time()
34 print('谷歌2翻譯第%s次時間:%s' % (i, time2 - time1))
35 time_google2 += (time2 - time1)
36
37
38 print('網路翻譯時間:%s' % (time_ / 10))
39 print('有道翻譯時間:%s' % (time_you / 10))
40 print('谷歌翻譯時間:%s' % (time_google / 10))
41 print('谷歌2翻譯時間:%s' % (time_google2 / 10))
『柒』 求python大神!!!Traceback (most recent call last):這是什麼錯誤
這是python種錯誤的跟蹤信息。
調用f1()出錯了,錯誤出現在文件XXX.py的第8行代碼,錯誤來源第4行:
File "XXX.py", line 4, in f1
return 1 / int(s)
return 1 / int(s)出錯了,找到了錯誤的源頭。
解決方法:
import urllib.request代碼改為res=response.read().decode('UTF-8')#讀取網頁內容,用utf-8解碼成字,執行命令pip install xxxx(缺失的包,例如lxml)
或者修改最後一行,將原本的sys.exit(_main())改為sys.exit(_main__._main())
python常用的內置數據類型:
1、數字(number)
用於存儲數值。python3支持4種類型的數字:int(整數類型)、foat(浮點型)、bool(布爾類型)、complex(復數類型)。
2、字元串(string)
由數值、字母、下劃線組成的一串字元,可以使用單引號(')、雙引號(")和三引號(''')指定字元串,使用"+"號可以連接兩個字元串
3、列表(list)
一維列表,變長、其內容可以進行修改。
列表是任何對象的有序集合,用「[]」標識。元素之間用逗號隔開,列表中的元素即可以是數字或字元串,也可以是列表。每個列表中的元素都是從0開始計算的。列表可以通過「列表對象.列表方法(參數)」的方式調用
『捌』 如何用Python爬蟲獲取那些價值博文
過程大體分為以下幾步:
1. 找到爬取的目標網址;
2. 分析網頁,找到自已想要保存的信息,這里我們主要保存是博客的文章內容;
3. 清洗整理爬取下來的信息,保存在本地磁碟。
打開csdn的網頁,作為一個示例,我們隨機打開一個網頁:
http://blog.csdn.net/u013088062/article/list/1。
可以看到,博主對《C++卷積神經網路》和其它有關機計算機方面的文章都寫得不錯。
1#-*-coding:UTF-8-*-
2importre
3importurllib2
4importsys
5#目的:讀取博客文章,記錄標題,用Htnl格式保存存文章內容
6#版本:python2.7.13
7#功能:讀取網頁內容
8classGetHtmlPage():
9#注意大小寫
10def__init__(self,strPage):
11self.strPapge=strPage
12#獲取網頁
13defGetPage(self):
14req=urllib2.Request(self.strPapge)#建立頁面請求
15rep=req.add_header("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/38.0.2125.122Safari/537.36SE2.XMetaSr1.0")
16try:
17cn=urllib2.urlopen(req)#網頁請求
18page=cn.read()#讀網頁
19uPage=page.decode("utf-8")#網頁編碼
20cn.close()
21returnuPage
22excepturllib2.URLError,e:#捕獲異常
23print'URLError:',e.code
24return
25excepturllib2.HTTPError,e:#捕獲異常
26print'HTTPError:'+e.reason
27return
28returnrePage
29#正則表達式,獲取想要的內容
30classRePage():
31#正則表達式提取內容,返回鏈表
32defGetReText(self,page,recode):
33rePage=re.findall(recode,page,re.S)
34returnrePage
35#保存文本
36classSaveText():
37defSave(self,text,tilte):
38try:
39t="blog\"+tilte+".html"
40f=file(t,"a")
41f.write(text)
42f.close()
43exceptIOError,e:
44printe.message
45if__name__=="__main__":
46s=SaveText()
47#文件編碼
48#字元正確解碼
49reload(sys)
50sys.setdefaultencoding("utf-8")#獲得系統的默認編碼
51#獲取網頁
52page=GetHtmlPage("http://blog.csdn.net/u013088062/article/list/1")
53htmlPage=page.GetPage()
54#提取內容
55reServer=RePage()
56reBlog=reServer.GetReText(htmlPage,r'.*?(s.+?)')#獲取網址鏈接和標題
57#再向下獲取正文
58forrefinreBlog:
59pageHeard="http://blog.csdn.net/"#加鏈接頭
60strPage=pageHeard+ref[0]
61tilte=ref[1].replace('[置頂]',"")#用替換的功能去除雜的英文
62tilte=tilte.replace("
","").lstrip().rstrip()
63#獲取正文
64htmlPage=GetHtmlPage(strPage)
65htmlPageData=htmlPage.GetPage()
66reBlogText=reServer.GetReText(htmlPageData,'(.+?)')
67#保存文件
68fors1inreBlogText:
69s1='
'+s1
70s.Save(s1,tilte)
『玖』 python matplotlib 錯誤
把你代碼貼出來