python验证码识别

发布时间: 2023-04-13 08:11:24

❶ 如何用python+人工识别处理知乎的倒立汉字验证码

这给Python爬虫的模拟登录带来了一定的难度，目前网络上的相关资料针对的都是普通的“英文+数字”验证码，针对“倒立汉字”验证码的文章较少。而且大家普遍采用的是requests库。经过几天的研究，我采用urllib.request实现了模拟登陆知乎，现将代码分享如下：

[python] view plain
# 登录知乎，通过保存验证图片方式
import urllib.request
import urllib.parse
import time
import http.cookiejar

webUrl = "l"#不能写因为不支持重定向

webheader = {
# 'Accept': 'text/html, application/xhtml+xml, */*',
# 'Accept-Language': 'zh-CN',
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36',
# 'User-Agent': 'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
# 'DNT': '1',
# 'Connection': 'Keep-Alive'
}

postData = {
'email': '在这里写你的账号',
'captcha_type': 'cn',
'password': '在这里写你的密码',
'_xsrf': '',
'captcha': ''
}
localStorePath = "写你想保存的验证码图片的地址"

if __name__ == '__main__':
#声明一个CookieJar对象实例来保存cookie
cookie = http.cookiejar.CookieJar()
#创建opener
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)#建立opener对象，并添加头信息
urllib.request.install_opener(opener)

captcha_url = '?r=%d&type=login&lang=cn' % (time.time() * 1000)
# captcha_url = '/captcha.gif?r=%d&type=login' % (time.time() * 1000)#这样获得的是“字母+数字验证码”

#这个获取验证码图片的方法是不行的！
# urllib.request.urlretrieve(captcha_url, localStorePath + 'myCaptcha.gif')

#用urlopen函数保存验证图片
req = urllib.request.Request(url=captcha_url,headers=webheader)
content = urllib.request.urlopen(req)
# content = opener.open(req)
captcha_name = 'D:/Python学习/crawler_learning/知乎登录专题研究/知乎验证码图片/myNewCaptcha.gif'
content = content.read()
with open(captcha_name, 'wb') as f:
f.write(content)

postData['captcha'] = input('请输入验证码')
# postData['_xsrf'] = get_xsrf()
postData['_xsrf'] = ''
print(postData['_xsrf'])

#用urlopen函数传送数据给服务器实现登录
postData_encoded = urllib.parse.urlencode(postData).encode('utf-8')
req = urllib.request.Request(url=webUrl,data=postData_encoded,headers=webheader)
webPage = urllib.request.urlopen(req)
# webPage = opener.open(req)
data = webPage.read().decode('utf-8')

print(data)
with open("D:/知乎服务器反馈的内容.txt",mode='w',encoding='utf-8') as dataFile:
dataFile.write(data)

几点思考：
1、首先需要明确如何获得验证码图片的地址，利用Fiddler抓包获得的典型的验证码图片的地址如下：

这个“r”代表的是什么含义呢？经过查看知乎上的js代码可以确定，这个r指的是毫秒级的时间戳。
2、以验证码图片地址cn为例，不同时间访问同一个验证码图片地址，得到的验证码图片是不同的，那么知乎服务器是如何知道你获取的是那张验证码呢？
我认为是通过sessionID，换句话说，知乎把某个验证码图片给了你，同时知乎记录下了你的sessionID和这个验证码的“正确答案”，这样将来你输入验证码给知乎后，知乎就能判断你输入的验证码是否正确了。
由于sessionID保存在cookie之中，所以Python模拟登陆的代码必须使用cookie。
3、获取验证码图片的时候，我用的是content =urllib.request.urlopen (req)函数，经过我的验证，用
urllib.request.urlretrieve函数是不行的，因为urlopen函数可以传递headers参数，而这一个参数必须有。

4、获得了倒立汉字图片以后，如何确定要传递给知乎的captcha是什么呢？经过Fiddler抓包，
传递的参数类似于这样：
{"img_size":[200,44],"input_points":[[43.44,22.44],[115.72,22.44]]}
经过分析和试验确定：200指的是图片长度，44指的是图片高度，后面的input_points指的是打在倒立汉字上的点的坐标。由于每次出现7个汉字，这7个汉字的坐标是固定的，我全部进行捕获：
{"img_size":[200,44],"input_points":[[12.95,14.969999999999998],[36.1,16.009999999999998],[57.16,24.44],[84.52,19.17],[108.72,28.64],[132.95,24.44],[151.89,23.380000000000002]]}
然后，问题就简单了：将图片保存在本地之后，打开图片，确定哪几个汉字倒立，比如说第2个和第6个，那就在上面选取出2和6的坐标输入即可，即
{"img_size":[200,44],"input_points":[[36.1,16.009999999999998],[132.95,24.44]]}。
5、小窍门：以验证码图片地址

❷ opencv-python简单使用--识别滑动验证码缺口

以上是需要是别的图片缺口，来自某东登录。
opencv是计算机视觉。

1、 imread ：读取图片
imread(image_path, flag) :
images_path :图片路径，找不到不报错
flag :
1/cv2.IMREAD_COLOR :彩色图片,图片透明性会被忽略,默认参数
0/cv2.IMREAD_GRAYSCALE :灰色图片
-1/cv2.IMREAD_UNCHANGED :包括其alpha通道
2、 imwrite
imwrite(img_path_name,img)
img_path_name :保存的文件名
img ：文件对象
3、 cvtColor
cvtColor(img,code)
img : 图像对象
code ：
cv2.COLOR_RGB2GRAY : RGB转换到灰度模式
cv2.COLOR_RGB2HSV ： RGB转换到HSV模式（hue,saturation,Value）
4、 matchTemplate
matchTemplate(img_path, bg_path, cv2.TM_CCOEFF_NORMED)
img_path :对比图片
bg_path ：背景图片
cv2.TM_CCOEFF_NORMED

❸ Python有什么好的库可以识别验证码

要安装pytesseract库，必须先安装其依赖的PIL及tesseract-ocr，其中PIL为图像处理库，而后面的tesseract-ocr则为google的ocr识别引擎。

pytesseract安装
直接使用pip install pytesseract安装即可，或者使用easy_install pytesseract

Python验证码识别代码:

import pytesseract
from PIL import Image
image = Image.open('vcode.png')
vcode = pytesseract.image_to_string(image)
print (vcode)

❹ 如何利用Python做简单的验证码识别

先是获取验证码样本。。。我存了大概500个。
用dia测了测每个字之间的间距，直接用PIL开始切。
from PIL import Image
for j in range(0,500):
f=Image.open("../test{}.jpg".format(j))
for i in range(0,4):
f.crop((20+20*i,0,40+20*i,40)).save("test{0}-{1}.jpg".format(j,i+1))

上面一段脚本的意思是把jpg切成四个小块然后保存
之后就是二值化啦。
def TotallyShit(im):
x,y=im.size
mmltilist=list()
for i in range(x):
for j in range(y):
if im.getpixel((i,j))<200:
mmltilist.append(1)
else:
mmltilist.append(0)
return mmltilist

咳咳，不要在意函数的名字。上面的一段代码的意思是遍历图片的每个像素点，颜色数值小于200的用1表示，其他的用0表示。
其中的im代表的是Image.open()类型。
切好的图片长这样的。
只能说这样切的图片还是很粗糙，很僵硬。
下面就是分类啦。
把0-9，“+”，”-“的图片挑好并放在不同的文件夹里面，这里就是纯体力活了。
再之后就是模型建立了。
这里我试了自己写的还有sklearn svm和sklearn neural_network。发现最后一个的识别正确率高的多。不知道是不是我样本问题QAQ。
下面是模型建立的代码
from sklearn.neural_network import MLPClassifier
import numpy as np
def clf():
clf=MLPClassifier()
mmltilist=list()
X=list()
for i in range(0,12):
for j in os.listdir("douplings/douplings-{}".format(i)):
mmltilist.append(TotallyShit(Image.open("douplings/douplings-{0}/{1}".format(i,j)).convert("L")))
X.append(i)
clf.fit(mmltilist,X)
return clf

大概的意思是从图片源中读取图片和label然后放到模型中去跑吧。
之后便是图像匹配啦。
def get_captcha(self):
with open("test.jpg","wb") as f:
f.write(self.session.get(self.live_captcha_url).content)
gim=Image.open("test.jpg").convert("L")
recognize_list=list()
for i in range(0,4):
part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))
np_part_array=np.array(part).reshape(1,-1)
predict_num=int(self.clf.predict(np_part_array)[0])
if predict_num==11:
recognize_list.append("+")
elif predict_num==10:
recognize_list.append("-")
else:
recognize_list.append(str(predict_num))
return ''.join(recognize_list)

最后eval一下识别出来的字符串就得出结果了。。
顺便提一句现在的bilibili登陆改成rsa加密了，麻蛋，以前的脚本全部作废，心好痛。
登陆的代码。
import time
import requests
import rsa
r=requests.session()
data=r.get("act=getkey&_="+str(int(time.time()*1000))).json()
pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data['key'])
payload = {
'keep': 1,
'captcha': '',
'userid': "youruserid",
'pwd': b64encode(rsa.encrypt((data['hash'] +"yourpassword").encode(), pub_key)).decode(),
}
r.post("",data=payload)

❺ python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

python验证码识别

与python验证码识别相关的资讯