python獲取圖片驗證碼
『壹』 python爬驗證碼
1.找地址
首先,我們要找到這個網站生成驗證碼的地址,這個地址我們可以通過查看他的源代碼來實現。
1.找地址
首先,我們要找到這個網站生成驗證碼的地址,這個地址我們可以通過查看他的源代碼來實現。
就以某大學教務網為例,這個教務網的模板很多學校都在採用:
我就截取表單的驗證碼部分即可。
<tdalign="center"rowspan="3">
<imgid="imgCode"src="../sys/ValidateCode.aspx"
onclick="changeValidateCode(this)"alt="單擊可更換圖片!"
style="CURSOR:pointer;">
<br>看不清,則單擊圖片!
</td>123456123456
這里就可以知道,地址就是../sys/ValidateCode.aspx
組合一下地址就是http://jwmis.lmu.cn/sys/ValidateCode.aspx
也就是我們等一下要用到的地址了。
我們可以查看一下那個網頁。
2.處理圖片
去查看了一下那個地址
果不其然,都是亂碼,因為驗證碼分為兩種。
1)直接處理成JPG/GIF/PNG或者其他格式,然後直接讀取到一個圖片地址。
2)接收用戶觸發,然後生成,再直接處理成圖像,不讀取到一個圖片地址。
我們這里是第二種,我們要自己來讀取他,到本地,再手動輸入驗證碼。
#-*-coding:utf-8-*-
importurllib2
#驗證碼的處理#
#驗證碼生成頁面的地址#
im_url='http://jwmis.lmu.cn/sys/ValidateCode.aspx'
#讀取驗證碼圖片#
im_data=urllib2.urlopen(im_url).read()
#打開一個Code.PNG文件在D盤,沒有的話自動生成#
f=open('d:\Code.png','wb')
#寫入圖片內容#
f.write(im_data)
#關閉文件#
f.close()
這里包括兩個部分:
1)打開那個生成驗證碼圖片的頁面,讀取
2)將讀取到的內容,保存成圖片,下載到本地
我們這里的地址是可以隨便寫的,保存在你想保存的地方。
到這里我們就完成了驗證碼的一小部分。
by–LoDog
希望能幫到你!
『貳』 python抓取網頁時是如何處理驗證碼的
python抓取網頁時是如何處理驗證碼的?下面給大家介紹幾種方法:
1、輸入式驗證碼
這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。如下圖:
解決思路:這種是最簡單的一種,只要識別出裡面的內容,然後填入到輸入框中即可。這種識別技術叫OCR,這里我們推薦使用Python的第三方庫,tesserocr。對於沒有什麼背影影響的驗證碼如圖2,直接通過這個庫來識別就可以。但是對於有嘈雜的背景的驗證碼這種,直接識別識別率會很低,遇到這種我們就得需要先處理一下圖片,先對圖片進行灰度化,然後再進行二值化,再去識別,這樣識別率會大大提高。
相關推薦:《Python入門教程》
2、滑動式驗證碼
這種是將備選碎片直線滑動到正確的位置,如下圖:
解決思路:對於這種驗證碼就比較復雜一點,但也是有相應的辦法。我們直接想到的就是模擬人去拖動驗證碼的行為,點擊按鈕,然後看到了缺口的位置,最後把拼圖拖到缺口位置處完成驗證。
第一步:點擊按鈕。然後我們發現,在你沒有點擊按鈕的時候那個缺口和拼圖是沒有出現的,點擊後才出現,這為我們找到缺口的位置提供了靈感。
第二步:拖到缺口位置。
我們知道拼圖應該拖到缺口處,但是這個距離如果用數值來表示?
通過我們第一步觀察到的現象,我們可以找到缺口的位置。這里我們可以比較兩張圖的像素,設置一個基準值,如果某個位置的差值超過了基準值,那我們就找到了這兩張圖片不一樣的位置,當然我們是從那塊拼圖的右側開始並且從左到右,找到第一個不一樣的位置時就結束,這是的位置應該是缺口的left,所以我們使用selenium拖到這個位置即可。
這里還有個疑問就是如何能自動的保存這兩張圖?
這里我們可以先找到這個標簽,然後獲取它的location和size,然後 top,bottom,left,right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然後截圖,最後摳圖填入這四個位置就行。
具體的使用可以查看selenium文檔,點擊按鈕前摳張圖,點擊後再摳張圖。最後拖動的時候要需要模擬人的行為,先加速然後減速。因為這種驗證碼有行為特徵檢測,人是不可能做到一直勻速的,否則它就判定為是機器在拖動,這樣就無法通過驗證了。
3、點擊式的圖文驗證和圖標選擇
圖文驗證:通過文字提醒用戶點擊圖中相同字的位置進行驗證。
圖標選擇: 給出一組圖片,按要求點擊其中一張或者多張。借用萬物識別的難度阻擋機器。
這兩種原理相似,只不過是一個是給出文字,點擊圖片中的文字,一個是給出圖片,點出內容相同的圖片。
這兩種沒有特別好的方法,只能藉助第三方識別介面來識別出相同的內容,推薦一個超級鷹,把驗證碼發過去,會返回相應的點擊坐標。
然後再使用selenium模擬點擊即可。具體怎麼獲取圖片和上面方法一樣。
4、宮格驗證碼
這種就很棘手,每一次出現的都不一樣,但是也會出現一樣的。而且拖動順序都不一樣。
但是我們發現不一樣的驗證碼個數是有限的,這里採用模版匹配的方法。我覺得就好像暴力枚舉,把所有出現的驗證碼保存下來,然後挑出不一樣的驗證碼,按照拖動順序命名,我們從左到右上下到下,設為1,2,3,4。上圖的滑動順序為4,3,2,1,所以我們命名4_3_2_1.png,這里得手動搞。當驗證碼出現的時候,用我們保存的圖片一一枚舉,與出現這種比較像素,方法見上面。如果匹配上了,拖動順序就為4,3,2,1。然後使用selenium模擬即可。
『叄』 python爬取驗證碼圖片,遇到驗證碼src屬性為完整的網址應該怎麼做
爬蟲中手動輸入驗證碼方法無法獲取圖片src地址
驗證碼在html中圖片標簽內容:
<class=「verCodeImg」 src="/kaptcha.jpg?v=0.234724039578059" οnclick=「verCode(this)」>
< class=「verCodeImg」 src="/kaptcha.jpg?v=0.234724239578059" οnclick=「verCode(this)」>
可知獲取到驗證碼的src地址就能動態的獲得驗證碼
因為驗證碼是動態的!動態的!動態的!
用動態爬取網頁的方法:
要用到selenium庫
其實獲得了驗證碼的src地址,我還是沒能成功登陸
因為即使是相同的鏈接點進去,每一次刷新都會有不同的驗證碼
通過動態網頁打開是一張
解析src地址出來是另一張
『肆』 用python如何直接獲取jsp生成的驗證碼圖片
你只需要正常請求圖片就行了,分析一下image的src,把它拼接成一個完整的URL去請求就好了,得到的有可能是BASE64編碼串,或者是文件,把它保存下來就可以了。
『伍』 python如何識別驗證碼
我們首先識別最簡單的一種驗證碼,即圖形驗證碼。這種驗證碼最早出現,現在也很常見,一般由4位字母或者數字組成。例如,中國知網的注冊頁面有類似的驗證碼,頁面如下所示:
表單中最後一項就是圖形驗證碼,我們必須完全正確輸入圖中的字元才可以完成注冊。
更多有關驗證碼的知識,可以參考這些文章:
Python3爬蟲進階:識別圖形驗證碼
Python3爬蟲進階:識別極驗滑動驗證碼
Python3爬蟲進階:識別點觸點選驗證碼
Python3爬蟲進階:識別微博宮格驗證碼
·本節目標以知網的驗證碼為例,講解利用OCR技術識別圖形驗證碼的方法。
·准備工作識別圖形驗證碼需要庫tesserocr,以mac安裝為例:在mac下,我們首先使用Homebrew安裝ImageMagick和tesseract庫: brew install imagemagickbrew install tesseract 接下來再安裝tesserocr即可:pip3 install tesserocr pillow這樣我們就完成了 tesserocr的安裝。
·獲取驗證碼為了便於實驗,我們先將驗證碼的圖片保存到本地。打開開發者工具,找到驗證碼元素。驗證碼元素是一張圖片,它的ser屬 性是CheckCode.aspk。所以我們直接打開如下鏈接就可以看到一個驗證碼,右鍵保存即可,將其命名為code.jpg:
這樣我們就得到一張驗證碼圖片,以供測試識別使用。
相關推薦:《Python教程》
識別測試
接下來新建一個項目,將驗證碼圖片放到項目根目錄下,用tesserocr庫識別該驗證碼,代碼如下所示:
這里我們新建了一個Image對戲那個,調用了tesserocr的image_to_text( )方法。傳入該Image對象即可完成識別,實現過程非常簡單,結果如下:
我們可以看到,識別的結果和實際結果有偏差,這是因為驗證碼內的多餘線條干擾了圖片的識別。
另外,tesserocr還有一個更加簡單的方法,這個方法可以直接將圖片文件轉為字元串,代碼如下:
不過這種方法的識別效果不如上一種的好。
驗證碼處理
對於上面的圖片,我們可以看到其實並沒有完全識別正確,所以我們需要對圖像作進一步的處理,如灰度轉換、二值化等操作。
我們可以利用Image對象的convert( )方法參數傳入L,即可將圖片轉化為灰度圖像,代碼如下:
傳入1即可將圖片進行二值化處理,如下所示:
我們還可以指定二值化的閾值。上面的方法採用的是默認閾值127。不過我們不能直接轉化原圖,要將原圖先轉化為灰度圖像,然後再指定二值化閾值,代碼如下:
在這里,變數threshold代表二值化閾值,閾值設置為160,之後我們來看看我們的結果:
我們可以看到現在的二維碼就比較方便我們進行識別了;那麼對於一些有干擾的圖片,我們做一些灰度和二值化處理,這會提高圖片識別的正確率。
『陸』 【python】爬蟲:簡訊驗證碼的獲取
最近一直在琢磨寫一個有點煩人的小爬蟲,結果琢磨著,就花了一點點時間山敗,寫了這樣一個「不友好」的,被許多人討厭的爬蟲😂:頻繁收取簡訊驗證碼的『壞』程序,姑且稱為是生活中的晌唯改一個"小惡作劇"吧。
對不起啦🙈,對那些老被我獲取驗證碼的網站(🙈並非有意要增加你們維護網站的成本💦)。
【備注】:此小程序僅用做技術探究學習,🚫不可用於宴判侵犯他人利益 。
【解釋一下】:對驗證碼的獲取,不同的網頁有不同的方式,但總結下來,主要分為以下幾種:
下面以蘇寧易購為例,(界面做的蠻好看的,點個贊)講述一下大致的簡訊獲取的步驟。
【後續 程序如下】:
【結語】:作者僅出於學習爬蟲的初衷,分享本文,如有問題,歡迎留言。
『柒』 python怎麼生成隨機圖形驗證碼
1.安裝pillow模塊
pip install pillow
2.pillow模塊的基本使用
1.創建圖片
from PIL import Image
#定義使用Image類實例化一個長為400px,寬為400px,基於RGB的(255,255,255)顏色的圖片
img1=Image.new(mode="RGB",size=(400,400),color=(255,255,255))
#把生成的圖片保存為"pic.png"格式
with open("pic.png","wb") as f:
img1.save(f,format="png")
#顯示圖片
img1.show()
運行程序,程序會在py文件的同級下生成一個名為"pic.png"的小圖片,圖片長為400px,寬為400px,顏色為白色.
2.創建畫筆
#創建畫筆,用於在圖片上生成內容
draw1=ImageDraw.Draw(img1,mode="RGB")
3.在圖片上生成點
#在(100,100)坐標上生成一個紅點,指定的坐標不能超過圖片的尺寸
draw1.point([100,100],pill="red")
#在(80,80)坐標上生成一個黑點,指定的坐標不能超過圖片的尺寸
draw1.point([80,80],fill=(0,0,0))
4.在圖片上畫線
#第一個括弧裡面的參數是坐標,前兩個數為開始坐標,後兩個數為結束坐標
#括弧里的第二個參數指定顏色,可以直接指定,也可以用RGB來表示顏色
draw1.line((100,100,100,300),fill="red")
draw1.line((100,200,200,100),fill="blue")
運行程序,畫筆會在(100,100)到(100,300)坐標之間畫一條紅色的豎線,在(100,200)到(200,100)坐標之間畫一根藍色的斜線
5.在圖片在畫圓
#括弧里的第一個參數是坐標,前兩個數為起始坐標,後兩個為結束坐標
#用這兩個坐標之間的正方形區域生成一個圓,大括弧里的第二個參數為圓的開始角度
#第三個參數為圓的結束角度,0到360表示所畫的是一個完整的圓形,
#也可以指定的數字來生成一段為圓弧,最後一個參數表示顏色,也可以用RGB來表示想要的顏色
draw1.arc((100,100,300,300),0,360,fill="red")
draw1.arc((0,0,300,300),0,90,fill="blue")
6.在圖片在寫文本
#使用畫筆的text方法在圖片上生成文本
#第一個參數為坐標,第二個參數為所有生成的文本的內容
#第三個參數為文本的顏色
draw1.text([0,0],"python","blue")
7.在圖片在生成指定字體的文本
#先實例化一個字體對象,第一個參數表示字體的路徑,第二個參數表示字體大小
font1=ImageFont.truetype("One Chance.ttf",28)
#在圖片上生成字體
#第一個括弧里的參數表示坐標,第二個參數表示寫入的內容
#第三個參數表示顏色,第四個參數表示使用的字體對象
draw1.text([200,200],"linux","red",font=font1)
圖片驗證碼的實例
#導入random模塊
import random
#導入Image,ImageDraw,ImageFont模塊
from PIL import Image,ImageDraw,ImageFont
#定義使用Image類實例化一個長為120px,寬為30px,基於RGB的(255,255,255)顏色的圖片
img1=Image.new(mode="RGB",size=(120,30),color=(255,255,255))
#實例化一支畫筆
draw1=ImageDraw.Draw(img1,mode="RGB")
#定義要使用的字體
font1=ImageFont.truetype("One Chance.ttf",28)
for i in range(5):
#每循環一次,從a到z中隨機生成一個字母或數字
#65到90為字母的ASCII碼,使用chr把生成的ASCII碼轉換成字元
#str把生成的數字轉換成字元串
char1=random.choice([chr(random.randint(65,90)),str(random.randint(0,9))])
#每循環一次重新生成隨機顏色
color1=(random.randint(0,255),random.randint(0,255),random.randint(0,255))
#把生成的字母或數字添加到圖片上
#圖片長度為120px,要生成5個數字或字母則每添加一個,其位置就要向後移動24px
draw1.text([i*24,0],char1,color1,font=font1)
#把生成的圖片保存為"pic.png"格式
with open("pic.png","wb") as f:
img1.save(f,format="png")
『捌』 opencv-python簡單使用--識別滑動驗證碼缺口
以上是需要是別的圖片缺口,來自某東登錄。
opencv是計算機視覺。
1、 imread :讀取圖片
imread(image_path, flag) :
images_path :圖片路徑,找不到不報錯
flag :
1/cv2.IMREAD_COLOR :彩色圖片,圖片透明性會被忽略,默認參數
0/cv2.IMREAD_GRAYSCALE :灰色圖片
-1/cv2.IMREAD_UNCHANGED :包括其alpha通道
2、 imwrite
imwrite(img_path_name,img)
img_path_name :保存的文件名
img :文件對象
3、 cvtColor
cvtColor(img,code)
img : 圖像對象
code :
cv2.COLOR_RGB2GRAY : RGB轉換到灰度模式
cv2.COLOR_RGB2HSV : RGB轉換到HSV模式(hue,saturation,Value)
4、 matchTemplate
matchTemplate(img_path, bg_path, cv2.TM_CCOEFF_NORMED)
img_path :對比圖片
bg_path :背景圖片
cv2.TM_CCOEFF_NORMED