tesseractpython

发布时间: 2023-08-25 12:51:28

① tesseract 训练字库 python 怎么调用

1、系统环境

OS X 10.7
MacBook Pro(13英寸，2012年初期)
Python 2.7

2、需要软件包
a、需要安装PIL以及pytesseract库

Python-tesseract是一个基于google's Tesseract-OCR的独立封装包；
Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果；
Python-tesseract默认支持tiff、bmp格式图片，只有在安装PIL之后，才能支持jpeg、gif、png等其他图片格式；
Python-tesseract支持python2.5及更高版本；
PIL［Python Imaging Library］来支持更多的图片格式；
b、需要安装google tesseract-ocr

执行命令行 tesseract.exe 1.png output -l eng ，可以识别1.png中文字，并把识别结果输出到output.txt中；
Pytesseract对上述过程进行了二次封装，自动调用tesseract.exe，并读取output.txt文件的内容，作为函数的返回值进行返回。

② Python如何图像识别

Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议使用pythonxy
pytesser是OCR开源项目的一个模块，在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在Python中调用pytesser模块时，pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下：

首先，安装Python2.7版本，这个版本比较稳定，建议使用这个版本。
其次，安装pythoncv。
然后，安装PIL工具，pytesser的使用需要PIL库的支持。
接着下载pytesser
最后，将pytesser解压，这个是免安装的，可以将解压后的文件cut到Python安装目录的Lib\site-packages下直接使用，比如我的安装目录是：C:\Python27\Lib\site-packages，同时把这个目录添加到环境变量之中。
完成以上步骤之后，就可以编写图片文本识别的Python脚本了。参考脚本如下：
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增强图片的识别率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识
下载之后进行安装，不再演示。
在tesseract目录下，有个tesseract.exe文件，主要调用这个执行文件，用cmd运行到这个目录下，在这个目录下同时放置一张需要识别的图片，这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好
然后找到tessdata目录，把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了

③ (源码分享)利用Python识别提取图像文字（中文英文都可以）

你想了解怎么利用程序自动识别网站验证码吗？识别提取图像文字（中文英文都可以）

分享一点简单有用的小项目：python

源码分享如下：

看视频教程链接：（点击识别图像文字视频教程链接）

一、首先需要安装 Tesseract模块及 语言包

Tesseract OCR光学字符识别

Windows系统：

安装网站（放在不需要权限的纯英文路径下）：
： https://digi.bib.uni-mannheim.de/tesseract/

可以下载一些语言包：

https://github.com/tesseract-ocr/

安装完成后，如果想要在命令行中使用Tesseract，那么应该设置环境变量。

还有一个环境变量需要设置的是，要把训练的数据文件路径也放到环境变量中。
在环境变量中，添加一个TESSDATA_PREFIX=C:path_to_tesseractdata eseractdata。

在Python代码中操作tesseract。需要安装一个库，叫做pytesseract。通过pip的方式即可安装：

pip install pytesseract

并且，需要读取图片，需要借助一个第三方库叫做PIL。通过pip list看下是否安装。如果没有安装，通过pip的方式安装：

pip install PIL

使用pytesseract将图片上的文字转换为文本文字的示例代码如下：

④ python有什么好的本地文字识别

你好，如果是英文的话。你可以用下面的库。
pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块，可将图片中的文字转换成文本（主要是英文）
如果要识别中文还需要下载对应的训练集：https://github.com/tesseract-ocr/tessdata
，下载”chi_sim.traineddata”，然后到训练数据集的存放路径。下面是一个例子的代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

⑤ python+tesseract怎样才能识别单个数字

打开 tessdata/configs/digits 改成 tessedit_char_whitelist 总之这个就是白名单，想识别谁就写进去另外命令里需要用digits，不然上边的设置没用，例如 tesseract xxx.jpg result -psm 10 digits

阅读全文

热点内容

飞车什么时候上线安卓发布：2025-03-15 16:28:45 浏览：27

linuxpython命令行发布：2025-03-15 16:19:45 浏览：958

编译androidx86 发布：2025-03-15 16:19:01 浏览：785

戴尔g15怎么切换温度配置文件发布：2025-03-15 16:16:18 浏览：850

长江存储0 发布：2025-03-15 16:15:35 浏览：46

地狱边境安卓版不支持谷歌怎么办发布：2025-03-15 16:15:32 浏览：161

kld数据库发布：2025-03-15 15:46:27 浏览：263

互联网数据库设计发布：2025-03-15 15:44:42 浏览：240

自适应滤波c语言发布：2025-03-15 15:40:25 浏览：969

cs狙击脚本发布：2025-03-15 15:25:15 浏览：344

tesseractpython

与tesseractpython相关的资讯