当前位置:首页 » 操作系统 » 输出法算法

输出法算法

发布时间: 2022-05-17 17:11:57

1. 哪种拼音输入法快

个人感觉:
搜狗拼音输入法,是最快的。

2. 如何从头开始编一个拼音输入法

需要学习输入法框架的 API;不同系统的输入法框架有较大差异,可能会涉及一些系统底层的细节;调试困难;Windows 的输入法以 DLL 注入方式加载,需要事先注册到系统,且不可运行时替换 (hot-swap);Mac OS 对输入法做超时控制,难以利用断点单步调试我的建议是,在理解输入法工作原理的基础上,先写一个逻辑纯粹的、在命令行上以 REPL (Read-eval-print loop) 方式工作的输入法原型。比方说,首先实现输入一串编码、查词典、输出查询结果。如果是做拼音输入法,可进一步在词典查询基础上完成词组、语句的转换。然后,再增加选字、编辑等功能键的处理逻辑。不可显示为字符的按键,可通过转义序列模拟,例如 `rime_api_console` 采用花括号+IBus键名表示任意的按键:`shuruufa{Left}{Left}{BackSpace}{End}`https://github.com/lotem/librime/blob/master/tools/rime_api_console.cc#L144这样做的好处是可以将测试用的按键序列保存为文本,通过输入重定向重放测试场景:```$ rime_api_console< test_key_sequence.txt```原型将输入法所需逻辑完全实现后,即可集成到真实的输入法框架,完善用户接口等等。最后,藉机宣传一下 RIME:RIME/中州韵输入法引擎,是一套跨平台的输入法算法框架,即在输入法与操作系统接口之上封装了一套输入法常用的算法和逻辑组件,允许用户以 YAML 文档格式自定义输入方案和码表,快速建立拼音、注音、五笔及类似形态的输入法。对于需要特殊逻辑的输入法,可通过编程扩展该框架,使开发者只须专注于相关逻辑。目前这一框架的不足是接口尚未完全定型、缺少开发文档。

3. 手机输入法哪个最好

手机输入法推荐:搜狗输入法、讯飞输入法、网络输入法、QQ输入法、谷歌拼音输入法。

1、搜狗输入法

搜狗输入法早在2006年6月就推出了,是目前主流输入法中上线时间最长的。在智能手机还没有那么普及的PC时代,搜狗输入法就已积累了一众用户。如今更是与时俱进,加入了不少年轻人喜欢的新功能,如斗图,如在使用时输入一些关键词就会弹出相应的歌曲、视频、新闻、天气、图片等等信息,让你可以发送给好友或者进一步了解。

4. 拼音输入法的算法,急需,越详细越好,谢谢,非常感谢。

215456351

5. 所有的算法都必须要有输入法

C语言算法可以有零个或多个输入,至少1个或多个输出,这是官方说法,答案选C.
也就是说没有输入没有问题,但是必须要有输出来结束程序.

6. 搜狗输入法到底是怎样的水平

1.市场有需求。抓住拼音输入法这个要点,当时的环境是家用电脑开始普及到中年或者低龄层,而五笔存在学习过程,拼音只要读小学都会——当时上手最快的应该是紫光和智能ABC吧/或者可以说是网络聊天沟通开始成为人们生活的一部分。
2.用户体验强。最开始的时候专注产品和用户体验,不像现在这样广告到处飞,弹窗很随意。
3.品牌打得好。前期的广告以及捆绑安装策略,很大程度上占领了市场的份额。
4.独立搜狗,而非搜狐。

5.足够的重视和资源投入(Google跟进的时候,就没有编辑进行词库审核,最后竟然偷用搜狗词库了,搜狗这边是北大中文系的研究生在做整理工作)

7. 一个好用的输入法的技术含量都体现在哪些方面

所谓语言模型关系到输入法本身的“首选字率”,这个需要通过一定的前文统计、输入过程中的数据计算,以及一定的自学习自适应算法来提供。

一般提到这个,大家习惯来衡量各个输入法的词库大小和多寡,实际上这种认识比较片面,“词库”本身只代表了你本地运算时候的优先级,但是具体怎么把本地词库中的词条和云计算中的词条无缝处理到你的输入过程中,这才是一款输入法语言模型算法是否优秀的标志,合理的前后文联想,词库中各词条合理的几率赋值,这才是你一款输入法使用是否顺心的前提。

举个小例子:

大部队,就这个三个字的词,你打一下。

上面我说的几个输入法基本都可以实现直接输入,那么分开来你再试试:

先打“部队”,如果这个词是首位,选择第二个“不对”,选完时候再打一个“大”字,紧接着再打“bui”看看是什么?

搜狗、谷歌、微软英库是不是都是默认就把“部队”拿前面来了?

然而搜狗有个不好的地方便是把“用户参与”的优先值订的特别高,你打了“大”,再打“bui”,然后选择了“不对”这个词,下次再遇上这个情况,它就不知道“大”后面的联想词用“部队”更好了……

而微软英库和Google输入法就执拗多了……

好的语言模型,不仅要求有足够多的本地词库,而且也要有用户本人足够的参与,随着你的使用,其每个词的概率赋值就越来越精确,日常使用时就会越来越符合你的语言习惯和输入习惯,为什么现在的词库各个输入法开始不通用?因为彼此的赋值模型不同,即使是相应的词库格式是通用的,也只是做到“从无到有”这一项,实际使用时依旧需要用户的手动选择,无法直接进入输入法的语言模型中……

我一直说搜狗做得不错的地方就是这个首选字率,以短句模式进行输入的话,搜狗可以说是我目前用过的所有输入法中的No.1。然而8.0(以前也可能有,不过我已经有段时间不用了,所以印象不够深刻了,仅以8.0为例)以后的搜狗,却少了一点“智能”的影子——

以短句模式进行输入,遇上的得地等字时,搜狗的正确率是第一的,这点连微软英库和google输入法都做不到,然而当你使用单纯的词为单位进行输入时,搜狗忽然就成弱智了——

因为现在搜狗和QQ输入法一样引入了同拼音下的首选字词简拼固顶——

比如说“的”,你打一个字母D,这个“的”就出了。

你打“的“的全拼,de,结果出来就是”得“了——

此外还有一个“了”字,单字母L出来的是了,全拼的Le就是“乐”了……

而且这货把这个的优先级放得还特别高!

高到了无视自己前后文联想功能的前面!

这是退步啊朋友啊!

用惯全拼的,依旧习惯了使用简拼的用户,以及习惯并且使用这种输入模式(可选类似智能ABC的首字固顶模式)的,这个功能还真不算坏,但是使用双拼的,这个功能就生生把你挺好的输入节奏切割的七零八碎的……

人家都在努力让输入法熟悉人类语言,争取让输入法和人类语言进行同步,你可好,上来就给了这么一个需要大家去习惯、记忆、并且和所谓智能背道而驰的“改善”……实在令人无语啊……

以我个人的使用习惯,以及所有使用双拼输入的用户,我个人是强烈建议大家关闭这个功能的——先去高级里面关闭——首字固顶,然后关闭——自定义短语,这两项同时关闭,最起码在我这里,搜狗就明显好用多了,不敢说一定超过微软英库,最起码不比它差了……就是不能用标准的小鹤形码了,也算有得有失……

8. 未来输入法还会有哪些新发明

科技在不断进步,创新无处不在,突破肯定会有,只不过是个时间问题
智能加持下的输入法,或许是未来行业内的发展方向,从五笔输入,到拼音输入,再到后来的手写输入、语音输入。作为手机里最常用到的软件,输入法这些年也一直在跟随着时代进步而发展着。
但当加入了AI技术之后,被优化的算法对于输入法的功能提升是相当明显的。以网络输入法为例,在加入了流式截断多层注意力建模技术后,语音输入的准确率获得极大提升。甚至超过三成用户认为,网络输入法的语音识别准确率超过了95%!

9. 微软拼音输入法的编码规则

微软拼音输入法是中国第三代汉字编码输入法.中文的输入法是从1974年8月开始基础工作,这个工程项目又叫“748工程”,其主要成果之一是《汉字频度表》,首先为汉字信息处理提供了重要的基础数据。经过对《汉字频度表》和其它字表的统计分析,国家标准总局颁布了汉字信息处理领域的第一个国家标准《信息交换用汉字编码字符集·基本集》(GB2312-80)。这是一个在中国的汉字信息处理历史上划时代的、具有深远影响的标准。

1981年,武汉大学等公布了在《新华字典》字集范围内的字根频度统计结果。1984年,国家文字改革委员会与武汉大学公布了《辞海》字集范围内汉字笔画、部件、结构的动态统计分析结果。
1985年,国家文字改革委员会与山西大学公布了人命姓氏用字的抽样统计分析结果。
1986年,北京航空学院、新华社利用计算机技术分别公布了基于大型语料库的新的汉字使用频度统计和流通频度统计1985年后,北京师范大学、上海交通大学、北京语言学院等分别使用各具特色的自动分词技术公布了基于大型语料库的现代汉语词语使用频度统计北京大学计算机语言研究所还建立了以汉语语法为中心的“现代汉语语法信息词典” 内容全面、翔实、使用方便的汉语语料库、字词属性库对推动汉字编码键盘输入技术的发展起到了重大作用。

九十年代后公布的与汉字键盘输入系统有关的国家标准有GB13000.1《信息技术多八位编码字符(UCS)》、GB18030 《信息技术 信息交换用汉字编码字符集基本集的扩充》、GB18031 《信息技术 数字键盘汉字输入通用要求》、GB15834 《标点符号用法》和即将公布的有GB/T18220-2000《信息技术 通用键盘汉字输入通用要求》。语委颁布的规范有GF3001 《信息处理 GB13000.1字符汉字部件规范》、GF3002 《GB13000.1字符集汉字笔顺规范》、GF3003 《信息处理用汉语拼音方案表示规范通用键盘》。

下面是从第一代输入法到微软输入法的一些介绍:

第一代汉字编码输入法
电子工业部第六所于1983年正式公布了我国第一个中文磁盘操作系统CC-DOS,这在我国中文信息处理历史上具有划时代的意义。CC-DOS是在PC-DOS的基础上扩充、修改而成。在广泛使用的CC-DOS 2.1版中,有简拼、首尾码、快速码和区位码输入法,已经涵盖了包括音码、形码、音形码和数字码这些主要类型的输入法,对我国计算机应用的普及起到了开路先锋的作用。

当时使用得最广泛的输入法是简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法,对三个及三个字母以上的韵母进行了压缩。首尾码是一种纯形码,包含97个部件,分为52类;部件到键盘字母的映射没有太多的规律可循,记忆量很大;编码时只取字首和字尾各一个部件,对于未列出的变形部件需要输入者自己去猜测其应归属的键位。这两种方法都不支持联想,也不支持词组,都有很多重码。因此,在输入时选择、翻页操作很频繁,眼睛需要不断地扫描提示行以便在众多的重码中找寻所需的字,输得又累又慢,更不可能实现盲打。

快速码是通过压缩拼音加码方法实现的,可以在一定的程度上离散重码。由于快速码的加码方法没有规律可循,因此没有得到真正的应用。区位码需要完全要靠死记6763个汉字和符号的数字编码来输入,因此除了用于输入当时还没有其它办法输入的标点符号外,基本上没有人实际使用。

另一个早期的汉字编码输入法是电报码。电报码为4位等长码方案,使用的码字从0000到9999,可以代表一万个字符(包括汉字、字母、符号)。电报码没有重码,但编码的规律性不强,十分难记。因此,它完全是为了邮电部门那些已经熟悉电报码的人的需要而移植进计算机的,对一般的汉字输入者没有什么意义。

1986年,联想集团在推出联想汉卡的同时推出了联想式汉字环境,首先使用了联想方法来加快汉字的输入。那时还没有词组输入方法,联想技术让人耳目一新。汉字输入过程由原来的编码->翻页->选择->编码...变成了编码->选择->选择...,因此稍后的很多输入法都采用了这种技术。不过,按照现代汉字编码输入技术的标准来看,联想技术仍然存在两个致命的弱点。一个弱点是,如果后续要输入的字与前面已输入的字不能构成词组的话,则联想就会失败。另一个弱点是,联想选择时人机交互过于频繁,虽然平均码长缩短了,但是实际的输入速度反而会下降。

总之,第一代汉字编码输入法的特点是:在DOS环境下,以单字为单位进行输入,在屏幕底部提供专门的提示行显示数量众多的重码字,翻页、选择操作频繁;用数字键选择重码字,用ALT+数字键可重复选择出现在提示行中的重码字;连极为常用的标点符号的输入都需要使用区位码,很不方便;联想技术的采用使输入效率有所改善,但其作用是相当有限的;各种输入法间的切换(包括切换到英文)都是通过复合功能键ALT+Fn(F1-F12)来进行的;支持全角和半角方式,但不支持中文标点方式;不支持词组输入,更不支持自定义词组。
第二代汉字编码输入法
1986年,四通公司与日本三井物业合作,推出了四通MS-2400中文电子打字机,宣告了中国专业电子打字时代的到来。随着四通打字机的广泛使用,首先捆绑在四通打字机上的五笔字型输入法流传开来,后来捆绑到四通打字机上的由刘卫民发明的双音输入法也在当时得到比较广泛的使用。

五笔字型是最典型的纯形码部件类方案。在五笔字型中,一般将部件称为字根。五笔字型采用了130个基本字根。基本字根按起笔分为五类,对应通用键盘上的五个区。每类又细分为五组,每组对应一个键盘字母。在一个汉字中,字根间的关系被归纳为“单、散、连、交”四种。在汉字拆分时,遵循“取大优先,兼顾直观,能连不交,能散不连”的原则。五笔字型将汉字被分为键名汉字、成字字根汉字和键外汉字三种,分别服从不同的编码规则。另外,字的编码还有一、二、三级简码,其形成方法是取相应全码的前一、二、三个字母。五笔字型将词组也分为二字词、三字词和多字词三种。二字词按顺序取各字的前两个字根来编码。三字词按顺序取头两个字的第一个字根和末字的前二个字根来编码。多字词按顺序取第一、二、三、末字的第一个字根来编码。

五笔字型以非常复杂的编码规则换来了在GB2312-80字符集内较低的重码率。当采用强制简码时,还可进一步将低重码率。词组编码被放进全码字的剩余编码空间中,实现了字词混合编码。只要收录的词组量不大,发生重码的可能性是比较小的。一般的五笔字型不具备自造词的功能。五笔字型拥有的这些特点,正好适应了职业打字的需要,成为它在职业打字时代非常流行的重要原因之一。

虽然五笔字型在市场上取得了巨大的成功,但它存在的问题也是不容忽视的。首先,五笔字型是非常难学的,而且容易遗忘。它除了有非常复杂的编码规则而外,还有很多例外需要记忆。五笔字型打字员在打字时对一些常见字出现“卡壳”的现象是很普遍的事情。这时就需要临时换用拼音输入法。其次,五笔字型的扩展性差。当字符集从GB2312-80到GBK和GB18030过渡时,当词组量增大时,五笔字型在码长为4的码位上会出现大量的重码,使其丧失重码率低的优势。五笔字型采用的是4码无重码自动上屏的策略,4码重码增多就迫使打字员的视线更多地离开稿件来观察提示行以确认自己的输入,从而降低录入速度。最后,五笔字型最致命的弱点是规范性差。张孝存等就此提出了言辞激烈的批评:“五笔字型违反语言文字规范。它对汉字的拆分具有相当大的随意性,对国民基础文化素质具有不可忽视的负面影响。它对规范的汉字教育的冲击同其应用范围的扩大成正比[20]。”

双音输入法是一种比较巧妙的纯音码 [23][25]。双音输入法最大的特点就是“以词定字、反向联想”,以缓解纯音码方式下单字重码过多的问题。因为二字词的数量很多,所以一般情况下总可以找到某个二字词,它的第一个字就是你想要输入的字。如果该二字词处于提示行的第一候选位置,则可以省略选择键;否则需要用数字键进行选择。如果整个二字词都是你需要的,你可以加一个空格键输入第二个字。也就是说,如果采用双拼的话,利用“以词定字”技术可以使得常用字输入时的平均击键数为2.5,而且基本上避免了传统拼音+联想方式下过多地扫视提示行和翻页、选择的毛病。在双音输入法中,对于三字词和四字词,取各字的声母作为编码来输入,必要时加空格结束。对于不认识的字,可以打入“\\”调用“手写模拟”。虽然可以自定义词组,但它不支持在线造词。造词时需要用外部文本编辑器按照它定义的格式输入编码和对应的词组。

双音输入法是拼音汉字输入历史上的一大进步,在当时受到了许多非职业打字员的欢迎。但是,它也存在一些比较严重的不足,以至于现在几乎没有人再使用它了。首先,虽然在输入效率上它较传统的拼音有很大的提升,但是它与后来的语句级拼音输入法如智能ABC相比,还有相当的差距。另外,“以词定字”时很多字可以采用多个词来确定,而有的字难以找到词来确定,用户常常感到不知所措。虽然双音输入法中提供了很多其它的方法来解决单字的录入问题。例如,邓、郭、姚等姓氏用字的输入就有6条辅助规则。要记住这些方法并判断何时采用何种方法可不是一件容易的事情。由于只能离线造词,所以词组的自定义也很不方便。

第三代汉字编码输入法
到了九十年代末,随着微机价格的进一步降低、存储处理能力的进一步增强、Windows图形操作系统的流行和国际互联网的兴起,用户界面变得非常友好,微机大面积地进入中国的普通百姓家庭,进入了中小学教育中,真正实现了微机在中国的大普及。

微机的大普及使得打字成为每个人的基本技能,就像会写汉字一样;需要别人打字就像需要别人代笔一样,实际上是文盲的标志。这样便造就了一个庞大的非职业打字员用户群体。打字员作为一个职业正在快速消失。一般用户在打字时的操作方式是“想打”,与职业打字员的“盲打”方式完全不同。“盲打”要求操作者尽量少看屏幕,输入法提供的反馈信息只有在操作员不能“盲打”时才偶尔派上用场;而“想打”时操作者始终是看着屏幕的,输入法所提供反馈的方式和反馈信息量的大小都会对操作者的输入活动产生巨大影响。Windows图形操作系统为人机界面的丰富化提供了前提条件,可以满足反馈信息多样化的需求。

现代微机强大的存储处理能力为新型的存储密集型和处理密集型输入法的诞生提供了物质基础。输入法程序不再局限于DOS时代64KB的驻留内存中。千兆级的运算速度使得复杂的智能算法得以投入运行。硬盘容量不仅从兆级扩大到千兆级,访问硬盘的速度也比DOS时代大大提高。将巨型的词库存储在硬盘上并进行快速搜索已不成问题。

计算机教育日益广泛地在中小学开展后,学生们从小就开始学习打字了。汉字编码与语言文字教育的关系问题被尖锐地提了出来。起码的要求是,汉字编码不能与语言文字知识相冲突。理想的情况是,把汉字编码输入与语言文字知识的学习结合起来,起到相互促进的作用。

在上述背景下,第三代汉字编码输入法应运而生,其指导思想是:规范、易学、易用并且尽量保持输入速度。这一时期,智能化拼音输入法的研究高潮迭起,也出现了以笔画或笔对为输入单位的纯形码,还出现了以声母和笔画(或笔对)为基础的音形码[29]-[48]。

(1) 智能化拼音输入法

智能化拼音输入法按其实现原理可以分为四种:基于理解的、基于语用统计的、基于模板匹配的和基于上下文关联的。

智能ABC是目前Windows操作系统上使用得最为广泛的准语句级拼音输入法,因为它是以词组和短语为单位而不是以全句为单位进行转换的。智能ABC最大的特色是能够非常方便地自定义词组和调整重码字词的顺序。用户只需按自己的想法进行输入,输入时可以不进行手工分词,系统会从前到后逐个进行自动分词。在没有词组时,系统自动按单字方式显示重码字供用户选择;一旦用户选定并组成新词后,系统就可以记住它。在系统分词不正确或系统提供的词不是用户需要的词时,用户也可以加以修改,系统也能记住用户所作的修改。通过较长时间的使用后,如果用户没有发生变化,系统逐步适应该用户的使用习惯,使用户的输入过程变得自如起来。

智能ABC也有很多值得改进的地方。首先,在输入时可以随意使用全拼、简拼、混拼,输入者可以在任何时候进行音字转换,过多的方式让用户不知哪种是最好的。看似非常灵活,但却实际上是把优化输入的任务交给了用户。但大多数用户不是这方面的专家,不可能很好地完成这项任务,从而导致用户走很多弯路或形成不好的、低效的输入习惯。其次,音字转换的准确率不高,句内修改很频繁,导致输入速度不理想,即使使用双拼也没有自然码的效率高。

微软拼音是真正意义上的语句级音字转换智能输入法,是微软自然语言处理技术多年科研成果的结晶。微软拼音采用拼音作为汉字的录入方式,用户不需要经过专门的学习和培训,就可以方便使用并熟练掌握这种汉字输入技术。微软拼音采用基于语句的整句转换方式,用户连续输入整句话的拼音,不必人工分词、挑选候选词语,这样既保证了用户的思维流畅,又大大提高了输入的效率。微软拼音提供的人机界面非常具有特色。组字窗口可以嵌入正在输入的文本的插入光标处,减少用户在输入时视线的移动频率,使得输入法的易用性得到了很大提高。逐键变换并提示转换结果,使得用户不必自己做何时进行转换的决策。用户可以输入的编码长度没有限制,当超过系统的长度上限或遇到句号时系统会自动进行转换,以便用户能继续不间断地输入。由于考虑的上下文较广,微软拼音能够达到很高的转换准确率。微软拼音在默认情况下拒绝用户输入简拼和混拼,可以引导用户养成良好的输入习惯。

微软拼音也存在一些问题。首先,在编码输入出错或转换不正确时进行句内编辑的操作很繁琐和低效。其次,逐键变换时往往会把已经转换正确的内容又修改错了,用户不得不随时监视输入内容的正确性,当已转换的内容较多时是非常劳心的。另外,微软拼音没有提供方法加速单字的录入,也没提供方法来输入不认识的字,是不完备的输入法。

基于笔画(或笔对)和/或声母的输入法

采用笔画、声母这两个最简单的汉字特征信息来进行编码,可以极大地提高输入法的易学性[12]。但是,汉字的笔画一般归为五种。笔画种类太少,势必增加编码的长度,从而影响输入速度。于是,如何缩短码长、提高录入效率成了这类输入法成功与否的关键问题。

福建双笔码软件开发有限公司研制的双笔码是一种基于笔画的纯形码。为了克服笔画种类过少的问题,双笔码引入了一种新的笔画类型“叉”,从而将笔画种类扩大为六种,取码时按顺序每取两笔构成一个笔对,共可形成36种不同的笔对,并在键盘上相应的键位区内选择键位输入。另外,双笔码还规定病字旁、“口”、提手旁和“日”应作为一个整体取码。根据汉字不同构造的组合形状,双笔码把汉字划为三类基本字型即左右型、上下型和综合型。不论哪种类型的汉字,均按四码进行编码。双笔码词组的输入方法为:二字词输入每个字的头两码;三字词输入前两个字的头一码和末字打头两码,四字及四字以上词输入一、二、三、末字的头一码。

双笔码的优点是:与传统的部件类输入法相比,记忆量减少了许多;采用笔对和36键编码后平均码长也相当短;如果不按笔对而按单笔画输入,就可以非常容易地向数字键盘移植双笔码。但是双笔码的缺点也非常明显:作为基于笔画的输入法,它的取码和编码规则复杂,例外也不少,学习难度仍然很大;采用了上排数字键进行编码,击打不方便,且与常用数字的输入相冲突,影响了实际输入速度。

陈劲松先生发明的二笔输入法是目前使用得比较广泛的输入法之一。它是一种基于声母和笔画的输入法,也可以单纯基于笔画进行输入。二笔输入法的30个编码字符在通用键盘上分布于六个区,即五个双笔画区和一个单笔画区。区内再根据双笔画的第二笔或根据单笔画,按横、竖、撇、点、折的顺序定位。但10个设定偏旁部首的键位需要记忆。二笔输入法将汉字按字形结构分为独体字和合体字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。独体字不必拆分;第一码取拼音首字母,第二码起按笔顺取笔画的代码,最多取四码。合体字拆分成两半,按汉字笔顺规则,先写的部分定为前半,后写部分为后半;第一码取取拼音首字母,第二码取前半的第一、二笔,第三码取后半的第一、二笔,第四码取后半的第三、四笔。二笔输入法词组的编码规则为:二字词取每个字的前二码,三字词取第一字的前二码和最后两个字的第一码,四字及四字以上词取前三字和最后一字的第一码。

二笔输入法的优点是:编码规则比双笔码更加简单,使用的编码字符也仅有30个;通过使用声母和笔画两种汉字特征信息编码,区分同码字词的能力得到了增强,取得了较高的输入效率;对于不认识的字还可以按全角方式输入;如果不按笔对而按单笔画输入,也可以非常容易地向数字键盘移植。但是二笔输入法也还存在问题:由于使用了笔对和设定部首,并需区分独体字和合体字进行不同的编码,因而学习难度和使用难度仍然较大。

数字键盘编码输入法
迄今为止,全国手机拥有量已超过3亿,手机短信息的产值超过50亿人民币。手机拥有量已经超过PC机用户,用手机输入汉字的人群远远超过用通用大键盘输入汉字的人群。

目前,美国特捷公司的T9拼音和T9笔画输入法、加拿大字源公司的字能笔画输入法和Motorola公司的iTap输入法垄断了中国大陆和港台的手机输入法市场。但是,国外的手机数字键盘输入法很不尽人意。以笔画输入为例,iTap用9个笔画,字能用8个笔画,T9用5个笔画。相同的一个笔画,不同的手机可以放在不同的位置上,输入速度也不理想。

为了打破外国手机输入法垄断中国手机市场和手机输入法不规范的尴尬局面。由中国中文信息学会等主办,由黄金码出版社(香港)有限公司等单位承办,于2004年11月21日,在人民大会堂举行了为期三天的中国首届手机中文输入大赛暨汉字数字码输入技术应用高峰论坛。在32支参赛队伍中,有23支参加模拟手机汉字数字码输入比赛,9支参加手机中文输入比赛。除了已参赛的数字编码方案外,比较引人注意的还有王永民先生的五笔数码[49]、郑岩松先生的左右数码[50]等。以下仅对当前使用得最为广泛的T9拼音、T9笔画和首届手机中文输入大赛中获得冠军的黄金码、大众数字码进行介绍。

T9拼音本质上采用的是一种全拼单字加联想的早期通用键盘输入技术。其最重要的创新是可以根据手机键盘上按键的组合情况判断是否能组合成合法的普通话音节,从而避免了传统上通过多次按键来输入一个拼音字母的弊端。但是,当按键组合适合多个合法的普通话音节,而且默认选择的普通话音节又不是用户所需要的时,用户还是得进行手动选择。另外,全拼的拼式过长、需要按1键进入选择状态和联想造成的过度人机交互都使得T9拼音的输入效率很低,而且全拼对普通话不好的人难度很大。

T9笔画采用目前多数输入法对笔画的归类方法将汉字笔画归为横、竖、撇、点、折五类,分别用1、2、3、4、5表示。录汉字时,按笔顺进行输入,逐键提示,每屏数个,高频优先,最长可输入12个笔画,并支持联想。由于分别使用五个键表示五种笔画,因此不需要像T9拼音一样对组合情况进行智能判断,内部处理逻辑很简单。T9笔画充分利用了丰富的笔画信息和不等长码的短码位,并可以直接键选重码字,所以它的实际输入效率比T9拼音还高。

大众数字码[51]用10个数字对字词进行编码。除了用1、2、3、4、5分别表示横、竖、撇、点、折五种笔画外,还用6、7、8、9、0分别表示交、插、八、小、口五类部件。单字按笔顺取第一、二、三、四、末五个代码、不足时按实际码长,词组的码长为6位。大众数字码使用了相当多的笔画组合作为部件,但由于归类清晰,记忆起来比很多同类的输入法要容易些,加上精心的编码规则降低了重码率,使得它在比赛中脱颖而出。不过,应当看到它使用的部件相当多,编码规则也并不简单,学习难度还是相当大的。

黄金码用9个数字对字词进行编码。除了用1、2、3、4、5分别表示横、竖、撇、点、折五种笔画外,还用6、7、8、9分别表示“口”、“十”、“八”、“亠”四类部件。编码时分字首和字尾,也区分独体字与合体字的不同。在提示行不为空时,0、*和#用做选择键。黄金码最大的特色是,在输入时若用于编码的数字与已输入的编码一起不能构成另外的字词编码时,该数字键就可以用于选择同码字词,这样就大大地增加了输入法的键选能力,缩短了动态平均码长;结合高频先见的不等长码的使用,在输入时基本上不用翻页,进一步提高了输入效率。不过,字首与字尾的区分没有标准可循,常常因人而异;动态地使用剩余编码键选择重码字词也造成选择键位置变化太大,加重了人机交互的负担。

以上是我从事电脑工作以来接触的几种我熟悉的输入法,不知道对你能否有所帮助.

10. 有谁能较详细的介绍下拼音输入法的算法实现。。

我介绍一种Java的简单GUI实现过程(主要组件是jlist)。

1.数据库:首先建立汉字与拼音字母字符串的对应数据字典,同音对应一组汉字数组。
2.数据结构:然后建立动态结构jlist存储要显示的拼音字符串,没有输入时不显示,输入字母后依次开始筛选,每次只显示可能的拼音(数据库已有的)。
3.汉字选取:选定拼音字符串后,从数据库读取对应汉字数组,jlist显示。选定,得到汉字。 不设联想输入。

选取过程jlist已经提供了方法。

热点内容
java的基本结构 发布:2024-10-11 15:12:24 浏览:730
大众suv哪个内部配置好 发布:2024-10-11 14:30:39 浏览:93
缓存到数据库失败 发布:2024-10-11 14:27:44 浏览:678
我的世界手机国际怎么创建服务器 发布:2024-10-11 13:45:46 浏览:420
svnlinux命令 发布:2024-10-11 13:35:54 浏览:234
ig加密语音 发布:2024-10-11 12:19:25 浏览:487
钉图上传 发布:2024-10-11 12:11:27 浏览:479
脚本个 发布:2024-10-11 12:10:43 浏览:151
刚性攻丝的编程 发布:2024-10-11 12:10:39 浏览:469
怎么登录安卓版全民tv 发布:2024-10-11 12:10:33 浏览:624