python字库
⑴ tesseract 训练字库 python 怎么调用
1、系统环境
OS X 10.7
MacBook Pro(13英寸,2012年初期)
Python 2.7
2、需要软件包
a、需要安装PIL以及pytesseract库
Python-tesseract是一个基于google's Tesseract-OCR的独立封装包;
Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果;
Python-tesseract默认支持tiff、bmp格式图片,只有在安装PIL之后,才能支持jpeg、gif、png等其他图片格式;
Python-tesseract支持python2.5及更高版本;
PIL[Python Imaging Library]来支持更多的图片格式;
b、需要安装google tesseract-ocr
执行命令行 tesseract.exe 1.png output -l eng ,可以识别1.png中文字,并把识别结果输出到output.txt中;
Pytesseract对上述过程进行了二次封装,自动调用tesseract.exe,并读取output.txt文件的内容,作为函数的返回值进行返回。
⑵ python+tesseract怎样才能识别单个数字
Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件
例如:
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名
⑶ python中背单词如何设计选项A,B,C,D
import requests
from lxml import etree
#请求头和目标网址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'
}
url = 'https://www.koolearn.com/dict/tag_2697_2.html'
#第二种写法的 xpath
#获取所有 li标签
xpath_items = '//a[@class="word"]'
#对每个 li标签再提取
xpath_link = './@href'
xpath_title = './text()'
#获取和解析网页
r = requests.get(url, headers=headers,verify=False)
r.encoding = r.apparent_encoding
dom = etree.HTML(r.text)
#获取所有的文章标签
items = dom.xpath(xpath_items)
words = []
for article in items:
t = {}
t['title'] = article.xpath(xpath_title)[0]
if t['title']:
# t['translate']=translate(t['title'])
#t['translate'] = bing_translate(t['title'])
t['translate'] = you_translate(t['title'])
t['link'] = "https://www.koolearn.com"+article.xpath(xpath_link)[0]
words.append(t)
import urllib.request
import urllib.parse
import json
import re
def translate(content):
# 翻译地址
request_url = 'http://fanyi.you.com/translate?smartresult=dict&smartresult=rule'
# data参数
data = {'i': content,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '15944508027607',
'sign': '',
'ts': '1594450802760',
'bv': '',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_REALTlME',
}
# headers参数
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
# 将data规范化
data = urllib.parse.urlencode(data)
# 转为字节型
data = bytes(data, 'utf-8')
# 创建请求
request = urllib.request.Request(request_url, data, headers=headers)
# 发送请求并获取相应
response = urllib.request.urlopen(request)
# 返回内容,得到一个json字符串
html = response.read().decode('utf-8')
# 将json字符串转为字典
html = json.loads(html)
print(html['translateResult'][0][0]['tgt'])
return html['translateResult'][0][0]['tgt']
import pandas as pd
df =pd.DataFrame(data=words)
# 读取所有Sheet
df1 = pd.read_excel("C:\\work\\english.xlsx", sheet_name=None)
index=len(list(df1))
sheetname="Sheet{}".format(index+1)
writer = pd.ExcelWriter('test_excel.xlsx')
df.to_excel(writer,sheet_name=sheetname)
writer.close()
⑷ Python数据分析库有哪些
Python数据分析必备的第三方库:
1、Pandas
Pandas是Python强大、灵活的数据分析和探索工具,包含Serise、DataFrame等高级数据结构和工具,安装Pandas可使Python中处理数据非常快速和简单。
Pandas是Python的一个数据分析包,Pandas最初使用用作金融数据分析工具而开发出来,因此Pandas为时间序列分析提供了很好的支持。
Pandas是为了解决数据分析任务而创建的,Pandas纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需要的工具。Pandas提供了大量是我们快速便捷的处理数据的函数和方法。Pandas包含了高级数据结构,以及让数据分析变得快速、简单的工具。
2、Numpy
Numpy可以提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是Scipy、Pandas等数据处理和科学计算库最基本的函数功能库,且其数据类型对Python数据分析十分有用。
Numpy提供了两种基本的对象:ndarray和ufunc。ndarray是存储单一数据类型的多维数组,而ufunc是能够对数组进行处理的函数。
3、Matplotlib
Matplotlib是强大的数据可视化工具和作图库,是主要用于绘制数据图表的Python库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
Matplotlib是Python的一个可视化模块,他能方便的只做线条图、饼图、柱状图以及其他专业图形。
Matplotlib是基于Numpy的一套Python包,这个包提供了丰富的数据绘图工具,主要用于绘制一些统计图形。
4、SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等,这些对数据分析和挖掘十分有用。
SciPy是一款方便、易于使用、专门为科学和工程设计的Python包,它包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。Scipy依赖于Numpy,并提供许多对用户友好的和有效的数值例程,如数值积分和优化。
5、Keras
Keras是深度学习库,人工神经网络和深度学习模型,基于Theano之上,依赖于Numpy和Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。
6、Scrapy
Scrapy是专门为爬虫而生的工具,具有URL读取、HTML解析、存储数据等功能,可以使用Twisted异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活的完成各种需求。
7、Gensim
Gensim是用来做文本主题模型的库,常用于处理语言方面的任务,支持TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的API接口。
⑸ python语言凯撒密码加密为什么要%26
%26是确保加密后的值仍然在字母表范围内(当然为了能解密,前提条件是原文的字符也不能超过这26个字母)
为什么要%26呢?直接用原文的Unicode值加三再转换成字符不就可以了吗?---
凯撒密码应该是很古老的加密技术吧,那时候计算机都还没出现,ASCII码或者你说的unicode码更不存在。所以说表示字符的就那么26个。当然你说我可以创造一些字符啊,那也没问题,和直接用数字也没多少区别。但有可能保持这26个字母更能起到混淆视听的作用,毕竟它们可能不能一眼看出是密码。
不管在古代还是现代,增加字库都是有成本的,比如雕刻活字、设计字体等,能复用现有字体的话,打印传播密文的成本就大大降低。
⑹ python常用包及主要功能
Python常用包:NumPy数值计算、pandas数据处理、matplotlib数据可视化、sciPy科学计算、Scrapy爬虫、scikit-learn机器学习、Keras深度学习、statsmodels统计建模计量经济。
NumPy是使用Python进行科学计算的基础包,Numpy可以提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库,且其数据类型对Python数据分析十分有用。
pandas 是python的一个数据分析包,是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Matplotlib是强大的数据可视化工具和作图库,是主要用于绘制数据图表的Python库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等,这些对数据分析和挖掘十分有用。
Scrapy是专门为爬虫而生的工具,具有URL读取、HTML解析、存储数据等功能,可以使用Twisted异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活地完成各种需求。
Scikit-Learn是Python常用的机器学习工具包,提供了完善的机器学习工具箱,支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库,其依赖于Numpy、Scipy和Matplotlib等。
Keras是深度学习库,人工神经网络和深度学习模型,基于Theano之上,依赖于Numpy和Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。
Statsmodels是Python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。
⑺ python 中如何输出c2=a2+b2上标
输出什么样的字符取决于你电脑使用的字库,和使用Python没有关系。一般的输入法都支持特殊字符的输入,它代替你查找字库的字码。
先输入c,在在输入法输入“平方”,然后向后翻,就可以找到 ² 的符号,选中即可。
⑻ 关于PY软件,我来扫盲(什么是PY)
)n; (US) 'paiθ?n ]n.蟒蛇,巨蛇 ),是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。 Python是一种编程语言,它的名字来源于一个喜剧。也许最初设计Python这种语言的人并没有想到今天Python会在工业和科研上获得如此广泛的使用。着名的自由软件作者Eric Raymond在他的文章《如何成为一名黑客》中,将Python列为黑客应当学习的四种编程语言之一,并建议人们从Python开始学习编程。这的确是一个中肯的建议,对于那些从来没有学习过编程或者并非计算机专业的编程学习者而言,Python是最好的选择之一。Python第一次学习Python,我只用了不到二十分钟的时间,站在书店里把一本教初学编程的人学习Python的书翻了一遍。也是从那时起,我开始被这种神奇的语言吸引。 Python的历史 Python的创始人为Guido van Rossum。1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为 ABC 语言的一种继承。之所以选中 Python(大蟒蛇的意思)作为程序的名字,是因为他是一个Monty Python的飞行马戏团的爱好者。 ABC是由Guido参加设计的一种教学语言。就Guido本人看来,ABC 这种语言非常优美和强大,是专门为非专业程序员设计的。但是ABC语言并没有成功,究其原因,Guido 认为是非开放造成的。Guido 决心在 Python 中避免这一错误(的确如此,Python 与其它的语言如C、C++和java结合的非常好)。同时,他还想实现在 ABC 中闪现过但未曾实现的东西。 就这样,Python在Guido手中诞生了。实际上,第一个实现是在Mac机上。可以说,Python是从ABC发展起来,主要受到了Mola-3(另一种相当优美且强大的语言,为小型团体所设计的)的影响。并且结合了Unix shell和C的习惯。 Python在编程语言中的定位 很多大规模软件开发计划例如 Zope, Mnet 及 BitTorrent. Google都在广泛地使用它。 通常认为,Python是一种解释性的语言,但是这种说法是不正确的,实际上,Python在执行时,首先会将.py文件中的源代码编译成Python的byte code(字节码),然后再由Python Virtual Machine来执行这些编译好的byte code。这种机制的基本思想跟Java,.NET是一致的。然而,Python Virtual Machine与Java或.NET的Virtual Machine不同的是,Python的Virtual Machine是一种更高级的Virtual Machine。这里的高级并不是通常意义上的高级,不是说Python的Virtual Machine比Java或.NET的功能更强大,而是说和Java 或.NET相比,Python的Virtual Machine距离真实机器的距离更远。或者可以这么说,Python的Virtual Machine是一种抽象层次更高的Virtual Machine。 基于C的Python编译出的字节码文件,通常是.pyc格式。 在实际开发中,python常被昵称为胶水语言,这不是说他会把你的手指粘住,而是说他能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结在一起。常见的一种应用情形是,使用python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,速度要求非常高,就可以用C++重写。 Python的缺点和补救措施 NO.1 运行速度(虽然比java快,但没法和需要编译的语言相比)。有速度要求的话,用C++改写关键部分吧。 NO.2 国内市场较小(国内以python来做主要开发的,目前只有一些 web2.0公司)。但时间推移,目前很多国内软件公司,尤其是游戏公司,也开始规模使用他。 No.3 中文资料匮乏(好的python中文资料屈指可数)。托社区的福,有几本优秀的教材已经被翻译了,但入门级教材多,高级内容还是只能看英语版。 NO.4 构架选择太多(没有像C#这样的官方.net构架,也没有像ruby由于历史较短,构架开发的相对集中。Ruby on Rails 构架开发中小型web程序天下无敌)。不过这也从另一个侧面说明,python比较优秀,吸引的人才多,项目也多。 ==================================================以上内容来自网络下面经过我的筛选,整理一点,再加上一些网友的评论PY软件。 对于普通的手机用户,我们不用了解太多,只是安上Python这个平台就可以了,可以让我们的手机支持更多以Python开发的程序。目前在Symbian手机上已经有相当多的Python开发的程序,也都是比较实用的。 python平台是一个运行软件的平台,就是有些软件需要python平台的支持才可以运行,直接安装上手机是开启不了的,py插件就是指py平台上的补丁! 1. 首先要确定你的手机里安装了适合机型的python平台,建议再安装增强模块以保证能运行部分py软件。 2. py软件安装之后会在功能表里显示图标,像打开普通软件那样打开就可以了。如果软件打不开请检查是否正确安装python平台和增强模块。 3. 部分软件会显示口口,建议安装字库,因为软件开发者没有设置默认显示字体py软件的构造 所有的py软件都要包括如下文件:.app--1.65k;.rsc--337b;.aif。这三个文件在所有py软件中都是相同的,唯一的区别就是软件的uid不同。这些文件其实就是一个py文件的壳,软件的真正起作用部分是在.py或.pyc文件里。