python取词
‘壹’ 将有道单词本导出到墨墨自建词库记忆,只背那些私人订制的单词
有道词典 的屏幕取词比较方便,词库和社区功能也比较全面,所以平时使用比较多。日常遇到的生单词可以随时放到有道自带的单词本中,收集记忆。虽然有道单词本提供背单词的功能,但是非常单一,没有艾宾浩斯遗忘曲线,所以非常不适合用来复习单词。
再说说 墨墨 (添加个 Link 以免有人想多)。墨墨是我用过的背单词app中最推荐的一个。原因有以下:
1. 根据艾宾浩斯遗忘曲线给你需要复习的单词;
2. 可以自己创建词库(在网页中操作),不用按照托福、雅思、专四专八的词库去记很多你已经记住了的或者你平时基本遇不到的单词;
3. 可以每日签到,签到的时候还会‘Peng’一下,细致的给你成就感;
4. 你有必要每日签到!一是因为如果连续几天不签到会累积很多你需要复习的单词,二是自建词库的单词数不是无限的,你需要通过签到来挣,或者花钱买(虽然不贵但是挣不到数量靠买获取是不是很伤自尊);
5. 此外,每天至少记忆单词数累积到10个你才能签到;
6. 例句和助记非常丰富,而且你可以自己创建自己喜欢的助记方式;
7. 例句或助记中的生单词可以直接添加到记忆清单中;
8. app内部链接五大在线词典;
9. 可以查看自己记忆单词的很多统计指标和未来复习单词数的预测;
10. 暂时就想到这些了。
那么,问题来了。一个是平时使用和收集生单词的有道词典,一个是可以方便记忆和复习自建词库的墨墨背单词, 怎么快速有效的把有道词典单词本收集的生单词导入到自己创建的墨墨词库中?
在这里,我肯定不会允许你耗时费力地一个一个复制!而如果把有道单词本导出来再放入墨墨词库,你会发现导出的单词本包括序号,音标,词性标识和汉语意思等,把这些全部直接复制到自建词库中将会引起很大的麻烦(试试你就知道了)。我的solution是这样的:
1. 从有道词典单词本中导出你想加入记忆的单词到一个.txt文件;
2. 把.txt文件的编码改为 utf-8 (直接另存为,有选项);
3. 使用本文后面的附加的python程序可以提取出你需要记忆的单词;
4. 程序将会生成一个.txt文件,打开之后会发现里面只剩英语单词了,将他们复制到你的墨墨自建词库中,记下词库编号;
5. 用墨墨记忆单词的时候通过词库编号链接到你的词库,你就可以开始学习你的私人订制的词库了。
此程序完成将text文件中这样的记录:
转化为这样的词条:
程序是用 python 写的,我不常做文本处理,本程序只为满足简单的基础需要,所以应该有很多可以改进的地方(欢迎分享你的更好的方案)。你只需要用自己的有道词典导出的utf-8编码的记事本文件路径和名称替换第19行的 E:voc.txt
‘贰’ python可以调用金山词霸屏幕取词吗
Imports XDICTGRB '引用命名空间
Public Class Form1
Implements IXDictGrabSink '继承 '引用DLL中的方法
'定义一个类
Public gp As GrabProxy 'DLL中的属性
Private Sub Form1_Load(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles MyBase.Load
'创建一个新实例
gp = New GrabProxy
'在gp 里面设置一些相关属性
gp.GrabInterval = 1000 ‘设置取词时间间隔为1秒
gp.GrabMode = 1 ‘设置取词方式为鼠标取词
gp.GrabEnabled = True ‘设置取词功能有效
'设置属性后,把接口指向自身
dwCookie = gp.AdviseGrab(Me)
‘叁’ google翻译悬浮窗(含google翻译python api)
阅读英文资料经常需要翻译。google翻译的结果个人比较满意,但google翻译只能用网页版查询,不能像有道词典一样滑屏取词。故自己开发了一个google翻译的悬浮窗小工具。 利用google翻译做的一个翻译窗口(默认置顶),自动监视粘贴板。当粘贴板发生变化时,自动翻译粘贴板内容。默认自动检测语言,翻译至中文。其他语言可自行向translate方法传递参数 https://github.com/MrCloudPeak/translation_window 其中translate_api.py文件包含python实现的google翻译api,可设置语言,可单独调用 然后会弹出一个translation窗口,自动监视粘贴板。当粘贴板发生变化时,自动翻译粘贴板内容。 要关闭程序,直接关闭终端即可‘肆’ python软件中的菜单都是英文的,怎样汉化,求详细汉化过程
你说的是idle吧。。。你根本就不需要汉化它,把精力放在记牢如何使用它更好。也谢菜单基本上用不到。。。比如最常用的ctrl+s为保存,F5是运行程序。这两个是最长用的。要新建文档,单击file(文件),然后选择new file(新建文件),或者open(打开)
指导这些就够了。。。。最常用的就这些。其它功能几乎不会去用
‘伍’ 请教关于用python编写屏幕取词的程序问题
1、屏幕取词技术实现原理与关键源码----
Ubuntu 下可以监视 gtk.Clipboard 来获取当前选中文字和位置。
我以前尝试过定时抓取鼠标附近图像做 OCR 来取词,
改成快捷键取词会省一点。
直接获得文字的悬停取词比较麻烦。
网页、XUL 应用程序可以有鼠标悬停事件。
X11 自己没有, 不过以前流行中文平台、中文外挂时候 Turbolinux 的中文 X-window 被修改为集成鼠标悬停取词翻译。
Gtk 程序也许你可以在 ATK 层入手,自己改 ATK 和用 LD_LIBRARY_PATH。
windows下很不好做。
普遍用的是HOOK API的方法。
可以参考stardict的取词模块。
不过我感觉stardict的取词模块也不是太好用(没金山词霸的好用),感觉有bug。
似乎以前某版本的金山词霸可以翻译图片中的文字,就是用 OCR
再,金山似乎出过 Linux Qt3 版本,找 Zoomq 几位在金山的老大索取源码看看吧
嗯, 金山词霸确实出过 Linux 版本,
是基于 wine 的,不是原生的 Linux 版本...
linux下就不知道,windows下,应该是做一个api hook,钩住TextOut,DrawText和DrawTextEx。
要取词的时候给鼠标所在的窗口发一个WM_PAINT消息,让窗口重绘。
当窗口调用TextOut, DrawText或是DrawTextEx进行重绘的时候,你就可以根据传入的参数知道
窗口想在鼠标下画什么东西了。
‘陆’ 学编程的要求有哪些
俗话说,没有金刚钻,就别揽瓷器活儿。套用到
IT
业,英语不行,就别做程序员。网上关
于程序员学英语的文章不少,
但我想谈谈我自己的看法。
首先详细讨论一下为什么程序员离
了英语不行,然后针对程序员应该怎么学英语说说我的体会。
英语是计算机的母语,是程序的母语,所以必然是程序员的母语。
程序中的变量名、函数名
起得好不好是决定代码质量和可维护性的最关键因素。
高质量的代码应该是这样的:
代码基
本上是自解释的(
self-explanatory
),不需要太多注释,不管代码的规模有多大,具有相
关知识背景的读过文档的人都可以立刻上手、
立刻参与维护和开发。
要想使代码能够自解释,
给变量和函数起个好名字很关键,
很显然,
只能用英文起名字,
一是用汉语拼音起名字可读
性很差,二是英文单词通常比汉语更
expressive
(看吧,如果用汉语来说,就得说“表达
能力更强”、“更有表现力”这么罗嗦)
,由于程序的复杂性,变量和函数往往表示一些很
抽象的概念,
起个既准确又简洁的名字并不容易,
可是很多时候,
用汉语需要很多字才能说
清楚的一件事,用英文一个单词再加点词形变化就能说清楚了。例如
APUE
上讲
sleep
函数
的实现,
其中有个变量表示“本来应该睡到某个时刻,
但是提前被信号唤醒了,
唤醒时与本
来应该睡到的时刻相差的时间”,
如果为了简洁而不求准确,
这个变量名至少也得叫“未睡
到”,而书中只用了一个单词
unslept
,非常准确、简洁地表达了这个意思。为了写程序而
学英语需要学到什么水平?我认为能起出这种变量名就够水平了。很多在
IT
外企工作的中
国人,说话写文章经常夹杂着英文单词(比我严重多了因为我不在外企),非常可以理解,
确实是为了表达得更准确简洁的需要,而不是纯为了
play
zhuangbility
。总之,要写程序
必须学好英语,
否则连变量名都起不好,
这虽然是一个非技术问题,但却是个根本问题,比
任何技术问题都重要。当然,现在很多编程语言也支持用
Unicode
字符给变量和函数起名,
但是你见过有人用汉字写程序吗?根本不实用。
有人会辩驳说一页英文翻译成中文往往只占
半页,中文不是更简洁吗?但是你算算打一页英文和打半页中文哪个敲键盘次数多。另外,
要读别人的代码也必须学好英语,如果你不知道
unslept
是由
sleep
变形而来的,就体会
不到其中的精妙,
只有大量阅读高质量的代码,
才能写出高质量的代码,
创作都是从模仿开
始的。
说说英语对于看书学习的重要性。
中文技术书和英文技术书的水平根本不在一个量级上,
这
是有很多原因的,
不能全归结于中文书的作者水平差。
最重要的是,
出中文书的低回报率决
定了作者不可能花太多心血在上面,你去
amazon
看看一本书卖多少美刀,再去
chinapub
看看一本书卖几块钱。
老外写一本书,
可以做到全书没有一个拼写错误
(当然英文的拼写检
查工具更完善也是部分原因),中文能找出一本没有错别字的书吗?
Knuth
可以悬赏让全世
界读者来找磋,
中文书作者有哪个敢这么做?不是因为老外态度有多认真治学有多严谨,
而
是因为他们赚到了,就应该拿出高质量的作品来,不然会被读者骂的。
英文技术书的翻译质量通常很差。
也不能归结于译者的水平差,
我也翻译过书,
也努力想译
好,但真的很难译好。
IT
业的新名词层出不穷,像“内核”、“网络”这种常见术语还好,
稍微专一点的术语都没有统一的译名。
我们在教学中发现,
很多学员看书时搞不清这本书的
名词
A
和那本书的名词
B
是什么区别,
来问老师,
才发现原来
A
和
B
就是一回事儿。
这是一
个单词对应多个译名的情况,
还有一个译名对应多个单词的情况,
比如
field
、
domain
、
realm
都译成“域”,
block
、
bulk
都译成“块”,
argument
、
parameter
都译成“参数”,
attribute
、
property
都译成“属性”,虽然这些词的意思本来就差不多,但是在一篇文章
里,作者可以换着用,不同的单词表示不同的概念,翻译完了一看,都成一个概念了。英文
书背后都有
index
,看到一半忘了某个名词是怎么定义的就可以翻
index
,而译文通常没有
index
,名词都已经乱七八糟了,没法做
index
。还有更发指的是,老外喜欢造词,现有的
单词上加一点变化和组合(例如有人喜欢说
automagically
),看着心领神会,想译出来就
很费劲。
老外即使在技术书中也经常用一些生动的表达方式和俏皮话,
而中文的书面语言非
常死板,
生动的表达方式只存在于口语中,
如果写在书上就很不像话,
这也是很难翻译的一
个重要原因。看中文译本,不仅质量差,而且跟不上时代,通常一本英文书出来,至少要等
一到两年才能看到中文译本。
两年啊!
等你看到这本书的中文译本时,
这个版本都快淘汰了。
然后说说英语在开发工作中的重要性。
看书学习通常只起一个引导入门的作用,
在工作中更
有用的是手册、文档。学完了
C
语言开始写程序了,谁还会去查
K&R
附录中的库函数?查
man page
才是最有效率的。然而手册比入门书更少有中文译版,因为手册是随时变的,会
随着软件版本更新,
而且需要看这些开发手册的人通常不会有英文障碍,
有英文障碍的人即
使看了翻译的手册也写不出好程序来,
所以当然没必要翻译了。
不管什么技术,
官方的手册
和技术标准才是最原始的第一手资料,
看别的书都是以讹传讹,
由于自然语言不可避免是有
歧义的,
文档中表达得不准确的地方就会被文档的读者也就是技术书的作者误解,
技术书中
再有表达不准确的地方又被译者误解。
我们小时候都玩过传话的游戏,
几个人站一排,
通过
悄悄话传一句话,传到最后变成什么了?所以,学网络协议,就得看
RFC
,学
ARM
,就得看
ARM
公司的
Architecture Reference Manual
,要学习
C
语言就得看
C99
,有歧义不要紧,
自己去揣测原作者的意思,总比道听途说的可靠。
我们的学员出去面试经常被问到的一个问题就是:
在开发工作中遇到问题,
书和文档上都没
有答案,网上搜一下也没有答案,怎么办?要我说,能看懂源代码的就去源代码中找答案,
这称为
hacking
,不管是内核、
libc
还是各种
framework
,你调用的东西有问题都能从它的
代码中找到原因。如果没有能力
hacking
,或者时间紧不想去
hacking
,最好的办法就是去
官方邮件列表和
IRC
问。
如果英文不行就没办法了,
只能去一些中文论坛:
“各位大虾帮忙,
小弟有一个问题求救!
跪求!
!
在线等!
!
!
”在线等了好几天也无人问津,
或者答非所问。
岂不知逛这些论坛的没有大虾,都是菜鸟,大虾们都在
IRC
上聊得正欢呢。我在做
Qt
开发
时曾经有一个问题,
当时在教育网,
上国外网不方便,
去各大中文论坛问了好几天也没人给
出满意的回答,后来花钱连了国外网,去
trolltech
官方新闻组提问,只等了几分钟就得
到了满意的解决办法。这次经历给我留下了深刻印象,从此以后再也没有去中文论坛。
那么,
如果现在英文水平很差,
又想做程序员,
应该怎么学英语呢?我下面说的方法有两个
前提,
一是你的英文至少达到高中毕业水平,
也就是语法基本都学完了,
即使用得不熟练也
知道有那么回事儿,二是你希望尽快在工作中用上英语,写程序够用就行,而不是有考
T
考
G
这样的更高要求。
学习英语有听说读写四个方面的要求,
做程序员至少需要读和写非常流畅,
如果在外企工作
还需要听和说的能力。技术英语和考
T
考
G
是不一样的,一是听和说不像读和写那么重要,
不必担心自己是“聋哑英语”,
没关系,
丝毫不影响你成为编程高手,
二是要求的词汇量要
小得多。
考
T
考
G
都要拿一本单词书背,
很少有人会觉得背单词很有意思,
至少我是觉得很
痛苦,
幸运的是看技术书不需要多少词汇量。
技术书的描述对象都是局限于一个很窄的领域
的,
就那么几个单词翻来覆去地用,
而且技术书是为了让人看懂的
(不像诗是为了让人看不
懂的)
,比较复杂的词在书中都有定义或解释。有些作者喜欢卖弄词汇量,
用一些很生僻的
单词,也有些作者卖弄一些典故,由于文化背景不同很难理解,不过这些通常都可以无视,
不会影响阅读,
还是因为技术书是为了让人看懂的。
对于学习者来说,
阅读能力是最重要的,
等你完成了学习,成为一个合格的开发者时,
需要写代码注释,需要写文档,需要通过邮件
交流,写作的能力才开始重要了。所以应该首先从阅读开始练习英语。
现在就拿起一本英文原版书开始看吧。
和学游泳一样,
阅读的能力只能通过阅读本身来练习。
我的经验是,
不必先系统学习了单词和语法再看书,
可以在看书时用到什么就补什么。
我建
议初学者看电子版,
因为现在的词典软件都可以鼠标取词,
边看边查很方便,
很多勤快人喜
欢把查过的单词都抄下来,我觉得没有必要,
反正查字典很方便,
下次再看到了就再查,多
查几次总会记住的,
抄下来就打断了看书的思路,
而且不见得抄下来就能记住。
也许是因为
我这人比较懒,
我用的都是懒办法。
很多人不喜欢看电子书,
理由是盯着屏幕看书太累,那
么盯着屏幕写程序累不累?这种人显然不适合做程序员。
语法不熟练怎么办?大多数情况下
单词的意思都明白了就不影响阅读。
技术书有时候喜欢用长句,
其中可能包含各种从句,
如
果实在读不懂就去查语法书,
同样也不需要把这种从句彻底弄明白,
只要这一句能看过去就
行了,以后多查几遍书,自然就掌握了。另外,技术书是说明文,通常不应该有过去时,看
到过去时就需要注意了,
很可能是虚拟语气,
如果不注意这一点,
看到的意思可能和真实的
意思正好相反。
应该从哪本书开始看起呢?从你当前最需要学的技术书看起。
看书是相当花时间的,
如果能
一边学英语一边学技术,
这时间利用得就很有效率。
比如,
如果你的
C
语言已经学得相当好
了,不要专门为了学英语去重看一遍原版的
K&R
。市面上有一些专门的计算机英语教材,我
的建议是不要看,浪费时间,
nonsense
。
初学时最好选一本有中文译本的书,有看不懂的地
方可以翻中文版来对照,
但是不要相信中文的翻译,
原因在前面讨论过了。
如果你是初学编
程,没有任何基础,我可以推荐一本英文很浅显技术也很浅显的书:
How To Think Like a
Computer Scientist
,有
Python
、
Java
和
C++
版本,可自由下载。
要逐渐养成良好的阅读习惯。
一是不要每个生单词都去查,
有些单词很生僻,
查了也记不住,
记住了也不会再见到它了,
但是前面讲过,
都是作者在卖弄词汇量,
无视它丝毫不影响阅读,
因此要学会猜测单词的意思,能不查就不查,继续贯彻“懒”的原则。二是看书不要动口,
不念出声也不行,
就是不要动口,
要努力在大脑中建立从词形到语义的直接映射,
如果只能
从词形到读音再到语义就太慢了,
严重影响阅读速度。
三是努力做到每句话都从头到尾只看
一遍,
不许回头反复看,
这一点比较难,
必须注意力高度集中,经常在记忆中暂存前面半句
的内容和句式才能做到,
但是一旦神功练成就会成倍地提高阅读速度。
最后一层境界,
学会
skim
,
就是略读,
很多优秀的作者在组织材料时会给读者一些建议,
比如这一段是扩展的高
级话题,和主线的相关度较低,
可以先
skim
到后面,注意不是让你
skip
到后面,这一段还
是要读的,
但是不必逐字句地读,
而是抓主旨,
大概讲了个什么概念
(有一些下定义的句式)
,
有哪些要点
(有数字编号或
bullet
列表项)
,
适用于哪些场合有哪些注意事项
(有
caveat
、
gotcha
、
noteworthy
这种字眼),后面可能还会碰到这个概念,虽然你没有仔细看这是个
什么东西,
但大体上也知道了,
这样就能不影响后面的阅读,
这不仅需要高度集中的注意力、
熟练的语言能力,
而且要有足够的背景知识去猜测性地理解。
但是语言能力还是最重要的因
素,我和几个同学交流过,他们也能熟练地看英文书,但是需要
skim
查一个东西时就觉得
还是不如中文书查得快。
skim
的技能在查阅手册时尤其重要,没有人会像看入门书一样把
上千页的手册从头到尾看一遍,
都是用到哪儿就查哪儿。
总之,
锻炼各种阅读习惯就为了一
个目的:如何在最短的时间内,
在保证正确性的前提下,
获取尽可能多的知识。程序员的学
习时间都是非常宝贵的。
以上本着“够用就好”的原则,
多次提到用懒办法,
但是学技术学英语这两件事不能懒,
贵
在坚持。
要养成良好的阅读习惯也有很多东西需要坚持,
其中最根本的是持续高度集中注意
力,充分调动记忆能力、推理能力、猜测能力,就像考试做阅读题一样看每一段话。最根本
也是最重要的,
“有英文原版就不看中文版”这个原则一定要坚持。
一开始看英文书可能会
很慢,
但只要一直坚持就会慢慢达到原来看中文书的速度,
再坚持下去就会比中文书看得更
有效率,因为避免了很多歧义和术语翻译的问题。
有人会说,
项目紧任务急,看英文资料太
慢,
这次就先用中文尽快解决工作中的问题吧,
等以后有时间了再看英文书学习。
可是什么
时候才会有时间呢?工作总是一个接一个的,
老板怎么会付了工资让你闲着呢?如果你有这
样的困难,
我的建议是干脆辞职,学好了英文再去工作。
你只要想想,
你的同行们在外企全
英文的环境下工作,
英文和技术每天都在突飞猛进,
而你还在用效率极其低下的方式学习和
工作,
你和别人的差距不是越来越大了吗?另一方面,
现在的在校学生从小学就开始抓英语,
基础都很好,
很多高校也逐渐重视引进原版教材,
开设很多英文授课的专业课。
你再不奋起
直追,就不觉得以后的职业道路充满危机吗?
最后说说写作。
刚开始练习时不要怕写错,
能表达清楚自己的意思即可。
我看过很多源代码
和文档中的英文,一看就是中国人写的,谓语动词不分单复数,名词复数不加
s
,处处可见
中国式英语,
但是丝毫不影响我对这些编程大牛的景仰,
因为其中的思想我看懂了,
并且我
认为很强大。我有一个朋友,中学毕业就出来混的,由于工作的性质总要跟老外打交道,他
从来不惧和老外交流,
虽然连一个囫囵的句子都说不出来,
但总是能用中学学的那点单词让
老外明白他的意思,
这一点我就非常佩服。
总之就是说,
不要因为不知道怎么写是对的就不
敢动笔写,
只要敢交流,
并且别人能懂你的意思,
就是很有效的交流。
而且随着阅读量的增
加,自然能写出一手好英文,前面讲过了,创作总是从模仿开始的。不怕出错才能有一个好
的开始,
才能逐步练习提高,
而练习的最终目的当然还是希望写好,
不仅字句通顺无语法错
误,还能适当修辞。
‘柒’ 学编程是不是一定要英语很好
不一定。学编程的人最根本的还是要数学底子好,所有的算法都是靠严密的思维逻辑才能够行得通的。编程语言要写大量源代码,其实只要是认得26个字母的人都可以编程。
但是毕竟程序这个东西是西方那里过来的,我们现在编程的代码都是英文字母。先进的计算机编程技术也都是西方那里学过来的,一些大型的计算商用程序大多数被西方垄断。如果要想在编程上有所进展,学习英语对拓展视野大有用处。
国内也有编程不用英文字母写源代码的,比如说易语言,所以学习编程外语不一定要很好,将来中国强大了,源代码用中文写,不也是很好嘛!我们的雷军,英语虽然不是很好,但编程可也是一流的,这正说明了学编程不一定要英语很好。
‘捌’ Python中,已经得到一个包含所有单词的词典,如何统计词典中的单词在每一句话中出现的次数
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
‘玖’ 如何对excel表格里的词结巴分词python
#-*-coding:utf-8-*-
importjieba
'''''
Createdon2015-11-23
'''
defword_split(text):
"""
Splitatextinwords.
(word,location).
"""
word_list=[]
windex=0
word_primitive=jieba.cut(text,cut_all=True)
forwordinword_primitive:
iflen(word)>0:
word_list.append((windex,word))
windex+=1
returnword_list
definverted_index(text):
"""
CreateanInverted-.
{word:[locations]}
"""
inverted={}
forindex,wordinword_split(text):
locations=inverted.setdefault(word,[])
locations.append(index)
returninverted
definverted_index_add(inverted,doc_id,doc_index):
"""
AddInvertd-Indexdoc_indexofthedocumentdoc_idtothe
Multi-DocumentInverted-Index(inverted),
usingdoc_idasdocumentidentifier.
{word:{doc_id:[locations]}}
"""
forword,locationsindoc_index.iteritems():
indices=inverted.setdefault(word,{})
indices[doc_id]=locations
returninverted
defsearch_a_word(inverted,word):
"""
searchoneword
"""
word=word.decode('utf-8')
ifwordnotininverted:
returnNone
else:
word_index=inverted[word]
returnword_index
defsearch_words(inverted,wordList):
"""
searchmorethanoneword
"""
wordDic=[]
docRight=[]
forwordinwordList:
ifisinstance(word,str):
word=word.decode('utf-8')
ifwordnotininverted:
returnNone
else:
element=inverted[word].keys()
element.sort()
wordDic.append(element)
numbers=len(wordDic)
inerIndex=[0foriinrange(numbers)]
docIndex=[wordDic[i][0]foriinrange(numbers)]
flag=True
whileflag:
ifmin(docIndex)==max(docIndex):
docRight.append(min(docIndex))
inerIndex=[inerIndex[i]+1foriinrange(numbers)]
foriinrange(numbers):
ifinerIndex[i]>=len(wordDic[i]):
flag=False
returndocRight
docIndex=[wordDic[i][inerIndex[i]]foriinrange(numbers)]
else:
minIndex=min(docIndex)
minPosition=docIndex.index(minIndex)
inerIndex[minPosition]+=1
ifinerIndex[minPosition]>=len(wordDic[minPosition]):
flag=False
returndocRight
docIndex=[wordDic[i][inerIndex[i]]foriinrange(numbers)]
defsearch_phrase(inverted,phrase):
"""
searchphrase
"""
docRight={}
temp=word_split(phrase)
wordList=[temp[i][1]foriinrange(len(temp))]
docPossible=search_words(inverted,wordList)
fordocindocPossible:
wordIndex=[]
indexRight=[]
forwordinwordList:
wordIndex.append(inverted[word][doc])
numbers=len(wordList)
inerIndex=[0foriinrange(numbers)]
words=[wordIndex[i][0]foriinrange(numbers)]
flag=True
whileflag:
ifwords[-1]-words[0]==numbers-1:
indexRight.append(words[0])
inerIndex=[inerIndex[i]+1foriinrange(numbers)]
foriinrange(numbers):
ifinerIndex[i]>=len(wordIndex[i]):
flag=False
docRight[doc]=indexRight
break
ifflag:
words=[wordIndex[i][inerIndex[i]]foriinrange(numbers)]
else:
minIndex=min(words)
minPosition=words.index(minIndex)
inerIndex[minPosition]+=1
ifinerIndex[minPosition]>=len(wordIndex[minPosition]):
flag=False
break
ifflag:
words=[wordIndex[i][inerIndex[i]]foriinrange(numbers)]
returndocRight
if__name__=='__main__':
doc1="""
中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范
重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文
只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样
存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
"""
doc2="""
存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,
词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词
书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
在中文里,“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和
短语的边界很难去区分。
例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,
同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现
混乱,难度很大。
中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就不很清楚,
中文分词方法可以帮助判别英文单词的边界。
"""
doc3="""
作用
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,
但如何让计算机也能理解?其处理过程就是分词算法。
影响
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,
没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接
影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果
"""
doc4="""
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,
若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向
匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种
机械分词方法如下:
正向最大匹配法(由左到右的方向);
逆向最大匹配法(由右到左的方向);
最少切分(使每一句中切出的词数最小);
双向最大匹配法(进行由左到右、由右到左两次扫描)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。
由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于
正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为,单纯使用逆向
最大匹配的错误率为。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词
作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征
的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法
是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词
结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
"""
doc5="""
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。
因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度
进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信息体现了
汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法
只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法
也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、
“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本
的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,
既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律
(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常
常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多
与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词
的语料作支撑,而且训练过程中时空开销极大。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法
来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合
般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。
"""
#BuildInverted-Indexfordocuments
inverted={}
documents={'doc1':doc1,'doc2':doc2,'doc3':doc3,'doc4':doc4,'doc5':doc5}
fordoc_id,textindocuments.iteritems():
doc_index=inverted_index(text)
inverted_index_add(inverted,doc_id,doc_index)
#Searchoneword
aWord="分词"
result_a_word=search_a_word(inverted,aWord)
ifresult_a_word:
result_a_word_docs=result_a_word.keys()
print"'%s'isappearedat"%(aWord)
forresult_a_word_docinresult_a_word_docs:
result_a_word_index=result_a_word[result_a_word_doc]
forindexinresult_a_word_index:
print(str(index)+''),
print"of"+result_a_word_doc
print""
else:
print"Nomatches! "
#Searchmorethanoneword
words=["汉语","切分"]
result_words=search_words(inverted,words)
ifresult_words:
print("["),
foriinrange(len(words)):
print("%s"%(words[i])),
print("]areappearedatthe"),
forresult_words_docinresult_words:
print(result_words_doc+''),
print" "
else:
print"Nomatches! "
#Searchphrase
phrase="中文分词"
result_phrase=search_phrase(inverted,phrase)
ifresult_phrase:
result_phrase_docs=result_phrase.keys()
print"'%s'isappearedatthe"%(phrase)
forresult_phrase_docinresult_phrase_docs:
result_phrase_index=result_phrase[result_phrase_doc]
forindexinresult_phrase_index:
print(str(index)+''),
print"of"+result_phrase_doc
print""
else:
print"Nomatches! "
‘拾’ 有道的翻译api可以直接用jquery呼叫吗
有道的翻译api可以直接用jquery呼叫吗?
不能,因为对方没有提供JSONP 借口,有道只提供网站访问的API。
PPt上可以直接用有道翻译吗
可以的 你可以选择里面的那个图片取词
在有道查单词的框框右下角有个萤幕取词,点一下,若是绿色,则当你点选桌面上任何字母是都会有英文出现,若不想要,再点一下,成红色就好了。
网页连结
国外问卷翻译过来可以直接用吗?
翻译稿至少过滤一下。。。。 有些问题或者备选答案都可能是国外专有的。。。需要做变更~~~
python可以直接呼叫win32的api吗
①没有内建所以不能直接呼叫
②需要下载安装pywin32-219.win32-py2.7.exe(选择合适的win32下载)
可以试试用 ctypes 嘛, py2.5之后就有了,例如,想要获得当期时间:
from ctypes import Structure, windll, POINTER, pointer
from ctypes.wintypes import WORD
class SYSTEMTIME(Structure):
_fields_ = [("wYear", WORD),
("wMonth", WORD),
("wDayOfWeek", WORD),
("wDay", WORD),
("wHour", WORD),
("wMinute", WORD),
("wSecond", WORD),
("wMilliseconds", WORD),
]
def printlocaltime():
# decl
GetLocalTime = windll.kernel32.GetLocalTime
GetLocalTime.argtypes = [POINTER(SYSTEMTIME),]
# invoke
t = SYSTEMTIME()
GetLocalTime(pointer(t))
print "%04d-%02d-%02d %02d:%02d:%02d" % (t.wYear, t.wMonth, t.wDay,
t.wHour, t.wMinute, t.wSecond)
printlocaltime()
可以的,python支援直接呼叫win32的api 呼叫的步骤如下: 先汇入ctypes模组: import ctypes 获取ctypes模组下具体模组:比如ctypes.windll 最后,获取具体的函式api 下面以呼叫win32蜂鸣器api为例: import ctypes player = ctypes.windll.kernel32 player.Beep(1000,200)
微软在windows开放了win32的API。python可以通过pywin32的接口直接调 用。
比如抓视窗,向视窗发讯息,控制视窗大小等等都可以做到。也可以直接使用API进行程式设计。
建议你找一本win32api的教程。里面的大部分功能都可以通过python使用。
要先安装win32的库,在程式码开头import 后,就能使用win32的api了
document.onmouseup = function () {
document.onmouseup = null;
document.onmousemove = null;
可以的,很好用。
python属于指令码语言,跑在VM上的,是不能直接呼叫win32 API的。
但是你可以使用C/C++ 包装起来API功能,提供给python呼叫。