當前位置:首頁 » 操作系統 » 輸出法演算法

輸出法演算法

發布時間: 2022-05-17 17:11:57

1. 哪種拼音輸入法快

個人感覺:
搜狗拼音輸入法,是最快的。

2. 如何從頭開始編一個拼音輸入法

需要學習輸入法框架的 API;不同系統的輸入法框架有較大差異,可能會涉及一些系統底層的細節;調試困難;Windows 的輸入法以 DLL 注入方式載入,需要事先注冊到系統,且不可運行時替換 (hot-swap);Mac OS 對輸入法做超時控制,難以利用斷點單步調試我的建議是,在理解輸入法工作原理的基礎上,先寫一個邏輯純粹的、在命令行上以 REPL (Read-eval-print loop) 方式工作的輸入法原型。比方說,首先實現輸入一串編碼、查詞典、輸出查詢結果。如果是做拼音輸入法,可進一步在詞典查詢基礎上完成片語、語句的轉換。然後,再增加選字、編輯等功能鍵的處理邏輯。不可顯示為字元的按鍵,可通過轉義序列模擬,例如 `rime_api_console` 採用花括弧+IBus鍵名表示任意的按鍵:`shuruufa{Left}{Left}{BackSpace}{End}`https://github.com/lotem/librime/blob/master/tools/rime_api_console.cc#L144這樣做的好處是可以將測試用的按鍵序列保存為文本,通過輸入重定向重放測試場景:```$ rime_api_console< test_key_sequence.txt```原型將輸入法所需邏輯完全實現後,即可集成到真實的輸入法框架,完善用戶介面等等。最後,藉機宣傳一下 RIME:RIME/中州韻輸入法引擎,是一套跨平台的輸入法演算法框架,即在輸入法與操作系統介面之上封裝了一套輸入法常用的演算法和邏輯組件,允許用戶以 YAML 文檔格式自定義輸入方案和碼表,快速建立拼音、注音、五筆及類似形態的輸入法。對於需要特殊邏輯的輸入法,可通過編程擴展該框架,使開發者只須專注於相關邏輯。目前這一框架的不足是介面尚未完全定型、缺少開發文檔。

3. 手機輸入法哪個最好

手機輸入法推薦:搜狗輸入法、訊飛輸入法、網路輸入法、QQ輸入法、谷歌拼音輸入法。

1、搜狗輸入法

搜狗輸入法早在2006年6月就推出了,是目前主流輸入法中上線時間最長的。在智能手機還沒有那麼普及的PC時代,搜狗輸入法就已積累了一眾用戶。如今更是與時俱進,加入了不少年輕人喜歡的新功能,如斗圖,如在使用時輸入一些關鍵詞就會彈出相應的歌曲、視頻、新聞、天氣、圖片等等信息,讓你可以發送給好友或者進一步了解。

4. 拼音輸入法的演算法,急需,越詳細越好,謝謝,非常感謝。

215456351

5. 所有的演算法都必須要有輸入法

C語言演算法可以有零個或多個輸入,至少1個或多個輸出,這是官方說法,答案選C.
也就是說沒有輸入沒有問題,但是必須要有輸出來結束程序.

6. 搜狗輸入法到底是怎樣的水平

1.市場有需求。抓住拼音輸入法這個要點,當時的環境是家用電腦開始普及到中年或者低齡層,而五筆存在學習過程,拼音只要讀小學都會——當時上手最快的應該是紫光和智能ABC吧/或者可以說是網路聊天溝通開始成為人們生活的一部分。
2.用戶體驗強。最開始的時候專注產品和用戶體驗,不像現在這樣廣告到處飛,彈窗很隨意。
3.品牌打得好。前期的廣告以及捆綁安裝策略,很大程度上佔領了市場的份額。
4.獨立搜狗,而非搜狐。

5.足夠的重視和資源投入(Google跟進的時候,就沒有編輯進行詞庫審核,最後竟然偷用搜狗詞庫了,搜狗這邊是北大中文系的研究生在做整理工作)

7. 一個好用的輸入法的技術含量都體現在哪些方面

所謂語言模型關繫到輸入法本身的「首選字率」,這個需要通過一定的前文統計、輸入過程中的數據計算,以及一定的自學習自適應演算法來提供。

一般提到這個,大家習慣來衡量各個輸入法的詞庫大小和多寡,實際上這種認識比較片面,「詞庫」本身只代表了你本地運算時候的優先順序,但是具體怎麼把本地詞庫中的詞條和雲計算中的詞條無縫處理到你的輸入過程中,這才是一款輸入法語言模型演算法是否優秀的標志,合理的前後文聯想,詞庫中各詞條合理的幾率賦值,這才是你一款輸入法使用是否順心的前提。

舉個小例子:

大部隊,就這個三個字的詞,你打一下。

上面我說的幾個輸入法基本都可以實現直接輸入,那麼分開來你再試試:

先打「部隊」,如果這個詞是首位,選擇第二個「不對」,選完時候再打一個「大」字,緊接著再打「bui」看看是什麼?

搜狗、谷歌、微軟英庫是不是都是默認就把「部隊」拿前面來了?

然而搜狗有個不好的地方便是把「用戶參與」的優先值訂的特別高,你打了「大」,再打「bui」,然後選擇了「不對」這個詞,下次再遇上這個情況,它就不知道「大」後面的聯想詞用「部隊」更好了……

而微軟英庫和Google輸入法就執拗多了……

好的語言模型,不僅要求有足夠多的本地詞庫,而且也要有用戶本人足夠的參與,隨著你的使用,其每個詞的概率賦值就越來越精確,日常使用時就會越來越符合你的語言習慣和輸入習慣,為什麼現在的詞庫各個輸入法開始不通用?因為彼此的賦值模型不同,即使是相應的詞庫格式是通用的,也只是做到「從無到有」這一項,實際使用時依舊需要用戶的手動選擇,無法直接進入輸入法的語言模型中……

我一直說搜狗做得不錯的地方就是這個首選字率,以短句模式進行輸入的話,搜狗可以說是我目前用過的所有輸入法中的No.1。然而8.0(以前也可能有,不過我已經有段時間不用了,所以印象不夠深刻了,僅以8.0為例)以後的搜狗,卻少了一點「智能」的影子——

以短句模式進行輸入,遇上的得地等字時,搜狗的正確率是第一的,這點連微軟英庫和google輸入法都做不到,然而當你使用單純的詞為單位進行輸入時,搜狗忽然就成弱智了——

因為現在搜狗和QQ輸入法一樣引入了同拼音下的首選字詞簡拼固頂——

比如說「的」,你打一個字母D,這個「的」就出了。

你打「的「的全拼,de,結果出來就是」得「了——

此外還有一個「了」字,單字母L出來的是了,全拼的Le就是「樂」了……

而且這貨把這個的優先順序放得還特別高!

高到了無視自己前後文聯想功能的前面!

這是退步啊朋友啊!

用慣全拼的,依舊習慣了使用簡拼的用戶,以及習慣並且使用這種輸入模式(可選類似智能ABC的首字固頂模式)的,這個功能還真不算壞,但是使用雙拼的,這個功能就生生把你挺好的輸入節奏切割的七零八碎的……

人家都在努力讓輸入法熟悉人類語言,爭取讓輸入法和人類語言進行同步,你可好,上來就給了這么一個需要大家去習慣、記憶、並且和所謂智能背道而馳的「改善」……實在令人無語啊……

以我個人的使用習慣,以及所有使用雙拼輸入的用戶,我個人是強烈建議大家關閉這個功能的——先去高級裡面關閉——首字固頂,然後關閉——自定義短語,這兩項同時關閉,最起碼在我這里,搜狗就明顯好用多了,不敢說一定超過微軟英庫,最起碼不比它差了……就是不能用標準的小鶴形碼了,也算有得有失……

8. 未來輸入法還會有哪些新發明

科技在不斷進步,創新無處不在,突破肯定會有,只不過是個時間問題
智能加持下的輸入法,或許是未來行業內的發展方向,從五筆輸入,到拼音輸入,再到後來的手寫輸入、語音輸入。作為手機里最常用到的軟體,輸入法這些年也一直在跟隨著時代進步而發展著。
但當加入了AI技術之後,被優化的演算法對於輸入法的功能提升是相當明顯的。以網路輸入法為例,在加入了流式截斷多層注意力建模技術後,語音輸入的准確率獲得極大提升。甚至超過三成用戶認為,網路輸入法的語音識別准確率超過了95%!

9. 微軟拼音輸入法的編碼規則

微軟拼音輸入法是中國第三代漢字編碼輸入法.中文的輸入法是從1974年8月開始基礎工作,這個工程項目又叫「748工程」,其主要成果之一是《漢字頻度表》,首先為漢字信息處理提供了重要的基礎數據。經過對《漢字頻度表》和其它字表的統計分析,國家標准總局頒布了漢字信息處理領域的第一個國家標准《信息交換用漢字編碼字元集·基本集》(GB2312-80)。這是一個在中國的漢字信息處理歷史上劃時代的、具有深遠影響的標准。

1981年,武漢大學等公布了在《新華字典》字集范圍內的字根頻度統計結果。1984年,國家文字改革委員會與武漢大學公布了《辭海》字集范圍內漢字筆畫、部件、結構的動態統計分析結果。
1985年,國家文字改革委員會與山西大學公布了人命姓氏用字的抽樣統計分析結果。
1986年,北京航空學院、新華社利用計算機技術分別公布了基於大型語料庫的新的漢字使用頻度統計和流通頻度統計1985年後,北京師范大學、上海交通大學、北京語言學院等分別使用各具特色的自動分詞技術公布了基於大型語料庫的現代漢語詞語使用頻度統計北京大學計算機語言研究所還建立了以漢語語法為中心的「現代漢語語法信息詞典」 內容全面、翔實、使用方便的漢語語料庫、字詞屬性庫對推動漢字編碼鍵盤輸入技術的發展起到了重大作用。

九十年代後公布的與漢字鍵盤輸入系統有關的國家標准有GB13000.1《信息技術多八位編碼字元(UCS)》、GB18030 《信息技術 信息交換用漢字編碼字元集基本集的擴充》、GB18031 《信息技術 數字鍵盤漢字輸入通用要求》、GB15834 《標點符號用法》和即將公布的有GB/T18220-2000《信息技術 通用鍵盤漢字輸入通用要求》。語委頒布的規范有GF3001 《信息處理 GB13000.1字元漢字部件規范》、GF3002 《GB13000.1字元集漢字筆順規范》、GF3003 《信息處理用漢語拼音方案表示規范通用鍵盤》。

下面是從第一代輸入法到微軟輸入法的一些介紹:

第一代漢字編碼輸入法
電子工業部第六所於1983年正式公布了我國第一個中文磁碟操作系統CC-DOS,這在我國中文信息處理歷史上具有劃時代的意義。CC-DOS是在PC-DOS的基礎上擴充、修改而成。在廣泛使用的CC-DOS 2.1版中,有簡拼、首尾碼、快速碼和區位碼輸入法,已經涵蓋了包括音碼、形碼、音形碼和數字碼這些主要類型的輸入法,對我國計算機應用的普及起到了開路先鋒的作用。

當時使用得最廣泛的輸入法是簡拼和首尾碼。簡拼是純音碼,使用的是介於全拼和雙拼之間的一種拼音方法,對三個及三個字母以上的韻母進行了壓縮。首尾碼是一種純形碼,包含97個部件,分為52類;部件到鍵盤字母的映射沒有太多的規律可循,記憶量很大;編碼時只取字首和字尾各一個部件,對於未列出的變形部件需要輸入者自己去猜測其應歸屬的鍵位。這兩種方法都不支持聯想,也不支持片語,都有很多重碼。因此,在輸入時選擇、翻頁操作很頻繁,眼睛需要不斷地掃描提示行以便在眾多的重碼中找尋所需的字,輸得又累又慢,更不可能實現盲打。

快速碼是通過壓縮拼音加碼方法實現的,可以在一定的程度上離散重碼。由於快速碼的加碼方法沒有規律可循,因此沒有得到真正的應用。區位碼需要完全要靠死記6763個漢字和符號的數字編碼來輸入,因此除了用於輸入當時還沒有其它辦法輸入的標點符號外,基本上沒有人實際使用。

另一個早期的漢字編碼輸入法是電報碼。電報碼為4位等長碼方案,使用的碼字從0000到9999,可以代表一萬個字元(包括漢字、字母、符號)。電報碼沒有重碼,但編碼的規律性不強,十分難記。因此,它完全是為了郵電部門那些已經熟悉電報碼的人的需要而移植進計算機的,對一般的漢字輸入者沒有什麼意義。

1986年,聯想集團在推出聯想漢卡的同時推出了聯想式漢字環境,首先使用了聯想方法來加快漢字的輸入。那時還沒有片語輸入方法,聯想技術讓人耳目一新。漢字輸入過程由原來的編碼->翻頁->選擇->編碼...變成了編碼->選擇->選擇...,因此稍後的很多輸入法都採用了這種技術。不過,按照現代漢字編碼輸入技術的標准來看,聯想技術仍然存在兩個致命的弱點。一個弱點是,如果後續要輸入的字與前面已輸入的字不能構成片語的話,則聯想就會失敗。另一個弱點是,聯想選擇時人機交互過於頻繁,雖然平均碼長縮短了,但是實際的輸入速度反而會下降。

總之,第一代漢字編碼輸入法的特點是:在DOS環境下,以單字為單位進行輸入,在屏幕底部提供專門的提示行顯示數量眾多的重碼字,翻頁、選擇操作頻繁;用數字鍵選擇重碼字,用ALT+數字鍵可重復選擇出現在提示行中的重碼字;連極為常用的標點符號的輸入都需要使用區位碼,很不方便;聯想技術的採用使輸入效率有所改善,但其作用是相當有限的;各種輸入法間的切換(包括切換到英文)都是通過復合功能鍵ALT+Fn(F1-F12)來進行的;支持全形和半形方式,但不支持中文標點方式;不支持片語輸入,更不支持自定義片語。
第二代漢字編碼輸入法
1986年,四通公司與日本三井物業合作,推出了四通MS-2400中文電子打字機,宣告了中國專業電子打字時代的到來。隨著四通打字機的廣泛使用,首先捆綁在四通打字機上的五筆字型輸入法流傳開來,後來捆綁到四通打字機上的由劉衛民發明的雙音輸入法也在當時得到比較廣泛的使用。

五筆字型是最典型的純形碼部件類方案。在五筆字型中,一般將部件稱為字根。五筆字型採用了130個基本字根。基本字根按起筆分為五類,對應通用鍵盤上的五個區。每類又細分為五組,每組對應一個鍵盤字母。在一個漢字中,字根間的關系被歸納為「單、散、連、交」四種。在漢字拆分時,遵循「取大優先,兼顧直觀,能連不交,能散不連」的原則。五筆字型將漢字被分為鍵名漢字、成字字根漢字和鍵外漢字三種,分別服從不同的編碼規則。另外,字的編碼還有一、二、三級簡碼,其形成方法是取相應全碼的前一、二、三個字母。五筆字型將片語也分為二字詞、三字詞和多字詞三種。二字詞按順序取各字的前兩個字根來編碼。三字詞按順序取頭兩個字的第一個字根和末字的前二個字根來編碼。多字詞按順序取第一、二、三、末字的第一個字根來編碼。

五筆字型以非常復雜的編碼規則換來了在GB2312-80字元集內較低的重碼率。當採用強制簡碼時,還可進一步將低重碼率。片語編碼被放進全碼字的剩餘編碼空間中,實現了字詞混合編碼。只要收錄的片語量不大,發生重碼的可能性是比較小的。一般的五筆字型不具備自造詞的功能。五筆字型擁有的這些特點,正好適應了職業打字的需要,成為它在職業打字時代非常流行的重要原因之一。

雖然五筆字型在市場上取得了巨大的成功,但它存在的問題也是不容忽視的。首先,五筆字型是非常難學的,而且容易遺忘。它除了有非常復雜的編碼規則而外,還有很多例外需要記憶。五筆字型打字員在打字時對一些常見字出現「卡殼」的現象是很普遍的事情。這時就需要臨時換用拼音輸入法。其次,五筆字型的擴展性差。當字元集從GB2312-80到GBK和GB18030過渡時,當片語量增大時,五筆字型在碼長為4的碼位上會出現大量的重碼,使其喪失重碼率低的優勢。五筆字型採用的是4碼無重碼自動上屏的策略,4碼重碼增多就迫使打字員的視線更多地離開稿件來觀察提示行以確認自己的輸入,從而降低錄入速度。最後,五筆字型最致命的弱點是規范性差。張孝存等就此提出了言辭激烈的批評:「五筆字型違反語言文字規范。它對漢字的拆分具有相當大的隨意性,對國民基礎文化素質具有不可忽視的負面影響。它對規范的漢字教育的沖擊同其應用范圍的擴大成正比[20]。」

雙音輸入法是一種比較巧妙的純音碼 [23][25]。雙音輸入法最大的特點就是「以詞定字、反向聯想」,以緩解純音碼方式下單字重碼過多的問題。因為二字詞的數量很多,所以一般情況下總可以找到某個二字詞,它的第一個字就是你想要輸入的字。如果該二字詞處於提示行的第一候選位置,則可以省略選擇鍵;否則需要用數字鍵進行選擇。如果整個二字詞都是你需要的,你可以加一個空格鍵輸入第二個字。也就是說,如果採用雙拼的話,利用「以詞定字」技術可以使得常用字輸入時的平均擊鍵數為2.5,而且基本上避免了傳統拼音+聯想方式下過多地掃視提示行和翻頁、選擇的毛病。在雙音輸入法中,對於三字詞和四字詞,取各字的聲母作為編碼來輸入,必要時加空格結束。對於不認識的字,可以打入「\\」調用「手寫模擬」。雖然可以自定義片語,但它不支持在線造詞。造詞時需要用外部文本編輯器按照它定義的格式輸入編碼和對應的片語。

雙音輸入法是拼音漢字輸入歷史上的一大進步,在當時受到了許多非職業打字員的歡迎。但是,它也存在一些比較嚴重的不足,以至於現在幾乎沒有人再使用它了。首先,雖然在輸入效率上它較傳統的拼音有很大的提升,但是它與後來的語句級拼音輸入法如智能ABC相比,還有相當的差距。另外,「以詞定字」時很多字可以採用多個詞來確定,而有的字難以找到詞來確定,用戶常常感到不知所措。雖然雙音輸入法中提供了很多其它的方法來解決單字的錄入問題。例如,鄧、郭、姚等姓氏用字的輸入就有6條輔助規則。要記住這些方法並判斷何時採用何種方法可不是一件容易的事情。由於只能離線造詞,所以片語的自定義也很不方便。

第三代漢字編碼輸入法
到了九十年代末,隨著微機價格的進一步降低、存儲處理能力的進一步增強、Windows圖形操作系統的流行和國際互聯網的興起,用戶界面變得非常友好,微機大面積地進入中國的普通百姓家庭,進入了中小學教育中,真正實現了微機在中國的大普及。

微機的大普及使得打字成為每個人的基本技能,就像會寫漢字一樣;需要別人打字就像需要別人代筆一樣,實際上是文盲的標志。這樣便造就了一個龐大的非職業打字員用戶群體。打字員作為一個職業正在快速消失。一般用戶在打字時的操作方式是「想打」,與職業打字員的「盲打」方式完全不同。「盲打」要求操作者盡量少看屏幕,輸入法提供的反饋信息只有在操作員不能「盲打」時才偶爾派上用場;而「想打」時操作者始終是看著屏幕的,輸入法所提供反饋的方式和反饋信息量的大小都會對操作者的輸入活動產生巨大影響。Windows圖形操作系統為人機界面的豐富化提供了前提條件,可以滿足反饋信息多樣化的需求。

現代微機強大的存儲處理能力為新型的存儲密集型和處理密集型輸入法的誕生提供了物質基礎。輸入法程序不再局限於DOS時代64KB的駐留內存中。千兆級的運算速度使得復雜的智能演算法得以投入運行。硬碟容量不僅從兆級擴大到千兆級,訪問硬碟的速度也比DOS時代大大提高。將巨型的詞庫存儲在硬碟上並進行快速搜索已不成問題。

計算機教育日益廣泛地在中小學開展後,學生們從小就開始學習打字了。漢字編碼與語言文字教育的關系問題被尖銳地提了出來。起碼的要求是,漢字編碼不能與語言文字知識相沖突。理想的情況是,把漢字編碼輸入與語言文字知識的學習結合起來,起到相互促進的作用。

在上述背景下,第三代漢字編碼輸入法應運而生,其指導思想是:規范、易學、易用並且盡量保持輸入速度。這一時期,智能化拼音輸入法的研究高潮迭起,也出現了以筆畫或筆對為輸入單位的純形碼,還出現了以聲母和筆畫(或筆對)為基礎的音形碼[29]-[48]。

(1) 智能化拼音輸入法

智能化拼音輸入法按其實現原理可以分為四種:基於理解的、基於語用統計的、基於模板匹配的和基於上下文關聯的。

智能ABC是目前Windows操作系統上使用得最為廣泛的准語句級拼音輸入法,因為它是以片語和短語為單位而不是以全句為單位進行轉換的。智能ABC最大的特色是能夠非常方便地自定義片語和調整重碼字詞的順序。用戶只需按自己的想法進行輸入,輸入時可以不進行手工分詞,系統會從前到後逐個進行自動分詞。在沒有片語時,系統自動按單字方式顯示重碼字供用戶選擇;一旦用戶選定並組成新詞後,系統就可以記住它。在系統分詞不正確或系統提供的詞不是用戶需要的詞時,用戶也可以加以修改,系統也能記住用戶所作的修改。通過較長時間的使用後,如果用戶沒有發生變化,系統逐步適應該用戶的使用習慣,使用戶的輸入過程變得自如起來。

智能ABC也有很多值得改進的地方。首先,在輸入時可以隨意使用全拼、簡拼、混拼,輸入者可以在任何時候進行音字轉換,過多的方式讓用戶不知哪種是最好的。看似非常靈活,但卻實際上是把優化輸入的任務交給了用戶。但大多數用戶不是這方面的專家,不可能很好地完成這項任務,從而導致用戶走很多彎路或形成不好的、低效的輸入習慣。其次,音字轉換的准確率不高,句內修改很頻繁,導致輸入速度不理想,即使使用雙拼也沒有自然碼的效率高。

微軟拼音是真正意義上的語句級音字轉換智能輸入法,是微軟自然語言處理技術多年科研成果的結晶。微軟拼音採用拼音作為漢字的錄入方式,用戶不需要經過專門的學習和培訓,就可以方便使用並熟練掌握這種漢字輸入技術。微軟拼音採用基於語句的整句轉換方式,用戶連續輸入整句話的拼音,不必人工分詞、挑選候選詞語,這樣既保證了用戶的思維流暢,又大大提高了輸入的效率。微軟拼音提供的人機界面非常具有特色。組字窗口可以嵌入正在輸入的文本的插入游標處,減少用戶在輸入時視線的移動頻率,使得輸入法的易用性得到了很大提高。逐鍵變換並提示轉換結果,使得用戶不必自己做何時進行轉換的決策。用戶可以輸入的編碼長度沒有限制,當超過系統的長度上限或遇到句號時系統會自動進行轉換,以便用戶能繼續不間斷地輸入。由於考慮的上下文較廣,微軟拼音能夠達到很高的轉換准確率。微軟拼音在默認情況下拒絕用戶輸入簡拼和混拼,可以引導用戶養成良好的輸入習慣。

微軟拼音也存在一些問題。首先,在編碼輸入出錯或轉換不正確時進行句內編輯的操作很繁瑣和低效。其次,逐鍵變換時往往會把已經轉換正確的內容又修改錯了,用戶不得不隨時監視輸入內容的正確性,當已轉換的內容較多時是非常勞心的。另外,微軟拼音沒有提供方法加速單字的錄入,也沒提供方法來輸入不認識的字,是不完備的輸入法。

基於筆畫(或筆對)和/或聲母的輸入法

採用筆畫、聲母這兩個最簡單的漢字特徵信息來進行編碼,可以極大地提高輸入法的易學性[12]。但是,漢字的筆畫一般歸為五種。筆畫種類太少,勢必增加編碼的長度,從而影響輸入速度。於是,如何縮短碼長、提高錄入效率成了這類輸入法成功與否的關鍵問題。

福建雙筆碼軟體開發有限公司研製的雙筆碼是一種基於筆畫的純形碼。為了克服筆畫種類過少的問題,雙筆碼引入了一種新的筆畫類型「叉」,從而將筆畫種類擴大為六種,取碼時按順序每取兩筆構成一個筆對,共可形成36種不同的筆對,並在鍵盤上相應的鍵位區內選擇鍵位輸入。另外,雙筆碼還規定病字旁、「口」、提手旁和「日」應作為一個整體取碼。根據漢字不同構造的組合形狀,雙筆碼把漢字劃為三類基本字型即左右型、上下型和綜合型。不論哪種類型的漢字,均按四碼進行編碼。雙筆碼片語的輸入方法為:二字詞輸入每個字的頭兩碼;三字詞輸入前兩個字的頭一碼和末字打頭兩碼,四字及四字以上詞輸入一、二、三、末字的頭一碼。

雙筆碼的優點是:與傳統的部件類輸入法相比,記憶量減少了許多;採用筆對和36鍵編碼後平均碼長也相當短;如果不按筆對而按單筆畫輸入,就可以非常容易地向數字鍵盤移植雙筆碼。但是雙筆碼的缺點也非常明顯:作為基於筆畫的輸入法,它的取碼和編碼規則復雜,例外也不少,學習難度仍然很大;採用了上排數字鍵進行編碼,擊打不方便,且與常用數字的輸入相沖突,影響了實際輸入速度。

陳勁松先生發明的二筆輸入法是目前使用得比較廣泛的輸入法之一。它是一種基於聲母和筆畫的輸入法,也可以單純基於筆畫進行輸入。二筆輸入法的30個編碼字元在通用鍵盤上分布於六個區,即五個雙筆畫區和一個單筆畫區。區內再根據雙筆畫的第二筆或根據單筆畫,按橫、豎、撇、點、折的順序定位。但10個設定偏旁部首的鍵位需要記憶。二筆輸入法將漢字按字形結構分為獨體字和合體字。輸入漢字時,第一碼取漢字拼音首字母,從第二碼起取筆畫,最多取四碼,不足四碼應全取,不能取雙筆畫時就取單筆畫。獨體字不必拆分;第一碼取拼音首字母,第二碼起按筆順取筆畫的代碼,最多取四碼。合體字拆分成兩半,按漢字筆順規則,先寫的部分定為前半,後寫部分為後半;第一碼取取拼音首字母,第二碼取前半的第一、二筆,第三碼取後半的第一、二筆,第四碼取後半的第三、四筆。二筆輸入法片語的編碼規則為:二字詞取每個字的前二碼,三字詞取第一字的前二碼和最後兩個字的第一碼,四字及四字以上詞取前三字和最後一字的第一碼。

二筆輸入法的優點是:編碼規則比雙筆碼更加簡單,使用的編碼字元也僅有30個;通過使用聲母和筆畫兩種漢字特徵信息編碼,區分同碼字詞的能力得到了增強,取得了較高的輸入效率;對於不認識的字還可以按全形方式輸入;如果不按筆對而按單筆畫輸入,也可以非常容易地向數字鍵盤移植。但是二筆輸入法也還存在問題:由於使用了筆對和設定部首,並需區分獨體字和合體字進行不同的編碼,因而學習難度和使用難度仍然較大。

數字鍵盤編碼輸入法
迄今為止,全國手機擁有量已超過3億,手機簡訊息的產值超過50億人民幣。手機擁有量已經超過PC機用戶,用手機輸入漢字的人群遠遠超過用通用大鍵盤輸入漢字的人群。

目前,美國特捷公司的T9拼音和T9筆畫輸入法、加拿大字源公司的字能筆畫輸入法和Motorola公司的iTap輸入法壟斷了中國大陸和港台的手機輸入法市場。但是,國外的手機數字鍵盤輸入法很不盡人意。以筆畫輸入為例,iTap用9個筆畫,字能用8個筆畫,T9用5個筆畫。相同的一個筆畫,不同的手機可以放在不同的位置上,輸入速度也不理想。

為了打破外國手機輸入法壟斷中國手機市場和手機輸入法不規范的尷尬局面。由中國中文信息學會等主辦,由黃金碼出版社(香港)有限公司等單位承辦,於2004年11月21日,在人民大會堂舉行了為期三天的中國首屆手機中文輸入大賽暨漢字數字碼輸入技術應用高峰論壇。在32支參賽隊伍中,有23支參加模擬手機漢字數字碼輸入比賽,9支參加手機中文輸入比賽。除了已參賽的數字編碼方案外,比較引人注意的還有王永民先生的五筆數碼[49]、鄭岩松先生的左右數碼[50]等。以下僅對當前使用得最為廣泛的T9拼音、T9筆畫和首屆手機中文輸入大賽中獲得冠軍的黃金碼、大眾數字碼進行介紹。

T9拼音本質上採用的是一種全拼單字加聯想的早期通用鍵盤輸入技術。其最重要的創新是可以根據手機鍵盤上按鍵的組合情況判斷是否能組合成合法的普通話音節,從而避免了傳統上通過多次按鍵來輸入一個拼音字母的弊端。但是,當按鍵組合適合多個合法的普通話音節,而且默認選擇的普通話音節又不是用戶所需要的時,用戶還是得進行手動選擇。另外,全拼的拼式過長、需要按1鍵進入選擇狀態和聯想造成的過度人機交互都使得T9拼音的輸入效率很低,而且全拼對普通話不好的人難度很大。

T9筆畫採用目前多數輸入法對筆畫的歸類方法將漢字筆畫歸為橫、豎、撇、點、折五類,分別用1、2、3、4、5表示。錄漢字時,按筆順進行輸入,逐鍵提示,每屏數個,高頻優先,最長可輸入12個筆畫,並支持聯想。由於分別使用五個鍵表示五種筆畫,因此不需要像T9拼音一樣對組合情況進行智能判斷,內部處理邏輯很簡單。T9筆畫充分利用了豐富的筆畫信息和不等長碼的短碼位,並可以直接鍵選重碼字,所以它的實際輸入效率比T9拼音還高。

大眾數字碼[51]用10個數字對字詞進行編碼。除了用1、2、3、4、5分別表示橫、豎、撇、點、折五種筆畫外,還用6、7、8、9、0分別表示交、插、八、小、口五類部件。單字按筆順取第一、二、三、四、末五個代碼、不足時按實際碼長,片語的碼長為6位。大眾數字碼使用了相當多的筆畫組合作為部件,但由於歸類清晰,記憶起來比很多同類的輸入法要容易些,加上精心的編碼規則降低了重碼率,使得它在比賽中脫穎而出。不過,應當看到它使用的部件相當多,編碼規則也並不簡單,學習難度還是相當大的。

黃金碼用9個數字對字詞進行編碼。除了用1、2、3、4、5分別表示橫、豎、撇、點、折五種筆畫外,還用6、7、8、9分別表示「口」、「十」、「八」、「亠」四類部件。編碼時分字首和字尾,也區分獨體字與合體字的不同。在提示行不為空時,0、*和#用做選擇鍵。黃金碼最大的特色是,在輸入時若用於編碼的數字與已輸入的編碼一起不能構成另外的字詞編碼時,該數字鍵就可以用於選擇同碼字詞,這樣就大大地增加了輸入法的鍵選能力,縮短了動態平均碼長;結合高頻先見的不等長碼的使用,在輸入時基本上不用翻頁,進一步提高了輸入效率。不過,字首與字尾的區分沒有標准可循,常常因人而異;動態地使用剩餘編碼鍵選擇重碼字詞也造成選擇鍵位置變化太大,加重了人機交互的負擔。

以上是我從事電腦工作以來接觸的幾種我熟悉的輸入法,不知道對你能否有所幫助.

10. 有誰能較詳細的介紹下拼音輸入法的演算法實現。。

我介紹一種Java的簡單GUI實現過程(主要組件是jlist)。

1.資料庫:首先建立漢字與拼音字母字元串的對應數據字典,同音對應一組漢字數組。
2.數據結構:然後建立動態結構jlist存儲要顯示的拼音字元串,沒有輸入時不顯示,輸入字母後依次開始篩選,每次只顯示可能的拼音(資料庫已有的)。
3.漢字選取:選定拼音字元串後,從資料庫讀取對應漢字數組,jlist顯示。選定,得到漢字。 不設聯想輸入。

選取過程jlist已經提供了方法。

熱點內容
ftp帶字幕 發布:2024-10-11 17:19:37 瀏覽:430
android測試環境 發布:2024-10-11 17:10:45 瀏覽:797
如何查找內網伺服器地址 發布:2024-10-11 16:54:55 瀏覽:394
cvs編譯器哪個好 發布:2024-10-11 16:54:51 瀏覽:676
SQL資料庫文件的類型 發布:2024-10-11 16:35:12 瀏覽:115
安卓手機怎麼下載阿迪達斯 發布:2024-10-11 16:34:20 瀏覽:762
存儲系統的層次結構 發布:2024-10-11 16:28:12 瀏覽:149
Android圖片指定位置 發布:2024-10-11 16:28:05 瀏覽:79
HTML什麼編譯器 發布:2024-10-11 16:22:16 瀏覽:753
精銳一卡通密碼是什麼 發布:2024-10-11 16:17:55 瀏覽:796