詞性演算法
1. 百度是如何實現中文切詞的呢
大規模中文文本處理中的自動切詞和標注技術
--------------------------------------------------------------------------------
Internet網路通信技術和大容量存儲技術的發展,加速了信息流通的速度,形成了大
規模真實文本庫。這些信息具有規模大、實時性強、內容分布廣和格式靈活多樣等特點
,從而迫使人們考慮語言信息處理的新理論和新技術。
傳統的語言信息處理方法目前已發生了明顯的變化。主要表現在:處理對象由少量例
句到大規模的真實文本;處理方法由完全語法分析到部分語法分析;處理范圍由典型領域
到開放的實用領域等。
中文信息處理是語言信息處理的一部分,包括漢字信息處理和漢語信息處理。近年來
,在漢字信息處理取得長足進步的基礎上,漢語信息處理也開展了一系列的探索性工作。
由於漢語獨有的許多難點,如沒有詞的界限標記、沒有形態標記、詞類劃分和兼類情況復
雜等,面對大規模中文文本的處理任務,作為中文信息處理基礎工程的切詞、詞類標注和
語義標注工作,無論是在理論、方法還是工具方面都面臨著如何適應這些變革的問題。
伴隨著大規模真實文本語料庫的出現,應運而生的語料庫語言學(Corpus Linguisti
cs)在80年代嶄露頭角。山西大學是國內較早建立大規模語料庫並從事自然語言處理的單
位之一。1988年受國家語委和國家教委委託,建立了容量為200萬漢字的語料庫,進行了現
代漢語常用字表的統計。1991~1992年建立了包括新聞、經濟、軍事、體育、科技和科
普讀物等題材的100萬漢字的現代漢語語料庫,成功地用語料庫方法進行了漢語切詞和詞
類自動標注的研究。在上述兩個大規模語料庫的基礎上,我們從中精選了部分語料進行了
切詞、詞類標注的精加工,形成了10萬漢字的精加工語料庫。1995年國家863智能介面評
測小組主持的"現代漢語書面語自動切詞與詞類標注評測",其中所用的語料就取自該語料
庫。
"九五"期間,我們在已有的經過粗加工的1000萬字以上語料庫的基礎上建造了200萬
字的平衡語料庫,目前正在進行精加工處理,已完成其中50萬漢字語料的切詞和詞類標注
的精加工以及部分段落語義標注試驗,發現了很多深層次的問題。
一、研究需要引伸的自動切詞技術
1.切詞詞表建造和未登錄詞識別
從目前國內計算機界採用的切詞技術及其切詞結果來看,情況不容樂觀。首先是《分
詞規范》公布後,尚無一套公認的權威性的切詞詞表可供使用。為此,1995年全國智能接
口評測大綱規定,選取《現代漢語詞典》和《漢語拼音正詞法》中的詞語作為評測參考。
這實際上是一種臨時措施,沒有解決根本問題。《現代漢語詞典》是國內和國際上公認的
最具權威性的規范詞典,1995年重版修訂後,增加了9000多條反映新事物、新概念和科技
新發展、社會新變化的新詞語,如代溝、反思、特區、離休、信用卡、桑那浴、人工智慧
、基因工程等,同時也刪去了一些過於陳舊的詞語和過於專門的專科術語。作為一部推廣
普通話、促進漢語規范化服務的詞典,它的水平是很高的,但作為切詞用的詞表,其詞彙的
收集和數量都不能適應語言信息處理的工程性需要,還需進行篩選和補充。從我們已處理
過的幾十萬語料來看,還有數千個普通詞語需要補充。
其次,因為語言的生命力是由人們的使用決定的,它總是以一種動態的面貌展現在人
們的面前。從動態的角度看,人們可以根據表達的需要不斷地構造新詞,這就使語言中詞
的數目永遠是個開放集,任何錶面完備的切詞詞表都不可能把語言中所有的詞涵蓋無遺。
如:唯美/傾向、唯智力/傾向、唯設備/傾向……,非智力/因素、非國有/資產、非生產性
/投資……,其中,"非"、"唯"均為前綴,上述含這兩個前綴而構成的詞都是未登錄詞,也可
看作是一種動態詞。但是,我們應看到,漢語中的很多語素在活動能力、構詞位置上具有
靈活多變的特點,特別是其中有的語素既可以是能獨立運用的成詞語素,又能與別的語素
組合,作為構詞語素或語綴。
如"非"在上面幾例中是前綴,記為"非1",但在"非嚴肅查處不可"、"這件事非老劉不
能解決"中,"非"是一個連詞,記為"非2"。因此,區分"非"在句中是前綴還是詞,這是正確
切詞的關鍵,構詞知識、句法知識、語義知識在此必不可少。我們還應看到,語言中的詞
雖然可以數目無限,但這些詞的構造規則是有限的,這可以看成是語言的靜態一面。這些
靜態知識就是我們動態詞構詞規則庫的內容。
另外,在自動切詞過程中,專名識別也是一個難題。未被辨識出的中外人名、地名、
機構組織名、商標名等是導致切詞錯誤的重要原因之一。專名識別出現的錯誤可分為兩
種,一種是誤檢,把專名誤作普通名詞或其它詞處理,而導致分詞錯誤;另一種是錯檢,把非
人名、地名等誤分作人名、地名,而導致分詞錯誤。
目前,一些切詞系統所採用的專名識別方法是建立人名、地名等專名庫,然後再用機
械匹配的方法進行處理。這種方法從根本上講還是用靜態詞典來匹配動態語言材料,其實
際結果總是不盡如人意。因此,必須從動態的角度研究專名辨識方法。
以中國人名為例。1984年,國家語委和山西大學合作,利用1982年全國人口普查資料
,對我國漢字姓氏人名用字進行了抽樣統計。從北京、上海、遼寧、廣東、福建、陝西、
四川等七個地區(各抽取2.5萬人)抽取人名共計174993個。這項成果具有覆蓋面廣、代表
性強、合理、科學等特點。其中共有姓氏729個,分布相對集中,王、陳、李、張、劉這五
個大姓佔32%,前114個姓佔90%,前365個姓佔99%。同時,從人名用字的統計來看,時代背景
和區域性特色也十分明顯。如單名增長趨勢顯著,在1982年人口普查的抽樣調查中,新中
國成立前出生的總人數為68273個,單名人數佔6.5%,1976年以後的總人數為13621個,單名
佔32.5%。又如人名用"紅"字的,在新中國成立前佔0.136%,而在1966~1976年期間佔2.1
5%。人名用字的時代變化太明顯了。
這些翔實的姓名統計資料清楚地告訴我們,採用姓氏用字型檔、人名用字型檔以及上下文
稱謂等方法進行人名識別是一條可以試驗的方法。目前,由於研究深度不夠,試驗結果還
未能達到實用。
多年的實踐告訴我們,專名識別是一個很復雜的問題,不僅涉及字詞的信息(如是否常
做姓氏和人名),而且還涉及詞語搭配的句法知識和語義知識等。
總之,自然語言具有無限豐富、不斷發展和約定俗成的特點。漢語和其它自然語言一
樣,它的詞彙部分永遠是一個開放集,任何詞表都不能做到將全部詞彙收入。自動切詞系
統中由未登錄詞造成的切詞錯誤遠遠超過歧義切分與欄位引發的錯誤。因此,近年來這個
問題已成為自動切詞研究的焦點。目前,自動切詞的各種演算法設計和切詞精度的提高,還
有賴於從現代漢語詞彙學的角度進行分析研究,如語素的構詞能力、接尾詞和接頭詞的特
性、復合詞的構成方式等,才能從根本上解決切詞詞表的建造和未登錄詞的辨識問題。
2.建造歧義切分的句法構詞知識庫,以提高切詞精度
歧義欄位在中文文本中是普遍存在的,是自動切詞中一個比較棘手的問題。近年來,
國內開展了對歧義切分技術的研究,已研究出一些構詞和語法語義知識,增強了切分歧義
欄位的能力,提高了切詞的精度。但是,這些構詞語法知識庫庫容小、規則有限,無法滿足
大規模真實文本中信息處理的高標准要求。當前,應首先在大規模真實語料中採集各種歧
義現象的基礎上,從語素構詞、詞的句法關系、詞義搭配、短語結構等多個角度進行分析
研究。
目前,我們已從語料中收集整理了近萬條歧義切分欄位及其相應的句子,建立了歧義
切分欄位語料庫,並從中發現,交集型歧義切分欄位占歧義欄位總數的85%以上,而其中又
以二字詞構成的歧義欄位為多,占交集型歧義欄位的90%以上。可見處理這些由二字詞構
成的交集型歧義切分欄位是我們研製歧義切分技術的一個重點。基於以上事實,經過一年
來的不斷攻關,我們共歸納出幾十條歧義欄位切分的句法規則及上百條構詞規則,並用上
述規則進行切詞試驗,取得了較為滿意的效果。如歧義切分欄位庫中所有由介詞構成的歧
義欄位有上百條,而我們只給出兩條句法規則就解決了這些欄位的歧義問題。
規則P1:AJB為交集型歧義欄位,若A為介詞,則切分為A(介)/JB。如除/法律、與/共同
、把/關系、為/人民等。
規則P2:AJB為交集型歧義欄位,若B為介詞,則切分為AJ/B(介)。如發現/在、沒有/用
、習慣/於、主動/向等。
我們還建立了助詞、副詞、連詞、方位詞、趨向動詞、能願動詞、量詞、形容詞等
的句法規則來解決歧義欄位,同樣具有以簡馭繁的功效。
歧義欄位切分時,詞法知識同樣是正確切分中必要的信息。如"己"、"民"、"界"、"
闡"等都是不成詞語素,由這些語素組成的歧義欄位可以利用構詞法的知識給出切分規則
。下面例子中的歧義欄位都能取得正確的切分結果。
拿/出/自己/的/心愛/的/東西。(不可能切成"出自/己")
到時/在/世界/上/展示/風采。(不可能切成"在世/界")
這/段/話/闡明/了/一/個/真理。(不可能切成"闡/明了")
五/鄉/村民/辦/起/了/小/水電。(不可能切成"鄉村/民")
我們在探討歧義欄位切分技術時所建立的歧義切分句法和構詞知識庫,大大地增強了
處理歧義欄位的能力。
二、詞類自動標注中應考慮的兩項技術
1.詞類標注應採取經驗主義和理性主義相結合的方法
1992年國際機器翻譯會議的主題即為"機器翻譯中的經驗主義和理性主義方法"。隨
著對大規模真實文本處理的日益關注,人們已普遍認識到基於語料庫的分析方法(即經驗
主義方法)至少是對基於規則的分析方法(即理性主義方法)的一個重要補充。
在國內詞類自動標注演算法中,關於採用基於大規模語料庫的經驗主義方法和基於規則
的理性主義方法己有試驗報道。我們採用了"成分似然性自動詞類標注系統" (CLAWS)改
進演算法,選擇10萬漢字語料作為訓練集(標記集有174個標記),建立了一個相鄰標記的同現
概率矩陣(174×174)和兼類詞典(收詞1500個,每個兼類詞包括詞類標記及出現概率)。進
行自動標記時,先從輸入文本中截取一個首詞和尾詞非兼類的有限長度的詞串(稱為SPAN
),然後利用同現矩陣提供的數據來計算SPAN產生的每個可能標記的概率積,並選擇概率積
最大的標記串作為詞類標記結果。
試驗結果表明,基於語料庫統計的方法具有很好的一致性和較高的覆蓋率,並且可以
將一些不確定的知識定量化。但是,在這種方法中獲取知識的機制與語言學研究中獲取知
識的機制完全不同,因而所獲取的知識很難與現有的語言學成果相結合。同時,像CLAWS算
法的時間和空間復雜度都比較大,隨著標記跨段長度的增加以及兼類詞標記數目的增大,
其實際運行效率將會降低。
基於規則的理性主義方法可以將大量現成的語言學知識形式化,具有較強的概括性,
便於引用最新研究成果。因為任何詞類都有其內部的共性和區別於其它詞類的個性。只
要我們把詞類的共性和它外部的個性特徵結合起來,詞的兼類問題是可能得到妥善解決的
。比如:名詞的語法個性在於它可以直接受名量詞的修飾,可以受名詞直接修飾,可以做"
有"的賓語,可以與名片語成並列結構。如果某個詞具備了上述特徵,我們就可以判定它是
名詞。 (
例如,主張、計劃、建議可以是動詞,但在下面的語法環境中,它們一定是名詞,這是
因為:
·可以受名量詞的直接修飾 如五點主張、不少計劃、許多建議。
·可以受名詞的直接修飾 如個人主張、教學計劃、家長建議。
·可以做"有"的賓語 如有主張、有計劃、有建議。
·可以與名片語成並列結構 如觀點和主張、材料和計劃、觀點和建議。
我們在對50萬漢字語料進行詞類標注中,根據詞的語法功能這一標准判別兼類詞,既
具科學性又有可操作性,收到了較好的效果。但是,實踐表明,基於規則的方法所描述的語
言知識的顆粒度太大,難以處理復雜的、不規則的信息,特別是當規則數目增多時,很難使
規則全面覆蓋某個領域的各種語言現象。
為此,我們正在把基於規則的方法和基於統計的方法結合起來進行試驗,使語言知識
選擇引用和用統計方法建立的語言模型有機地結合起來,使之互相補充,相得益彰。預計
這一試驗將會取得更為滿意的結果。
2.詞類標注應同切詞過程一體化進行
人們分析和理解自然語言時,其特點和過程是什麼樣的呢?通過仔細觀察和思考,我們
不難發現,人腦處理自然語言的特點和過程是將切詞和詞類識別一體化進行,即邊切詞邊
進行詞類或語義識別,二者是不可分離的兩個方面。下面以處理兼類詞"為"和由"為"構成
的歧義欄位為例,說明切詞和詞類標注不可分離的性質。 例 "他們以服務社會、報效
祖國為人生的第一目標"。
理解這句話的關鍵是判別兼類詞"為"的詞性,並處理歧義切分欄位"為人生"到底該切
分為"為人/生"還是切分為"為/人生"。前者是詞性判別,後者是詞的切分。句法知識在理
解這句話中首先起作用,當我們看/聽到介詞"以"時,我們首先查尋的是這個介詞後面的第
一個動詞,當兼類詞"為"出現時,它的動詞詞性馬上被確認,也就是說介詞的詞性同時被排
除,因為漢語中"以...為..."常作為一種固定搭配使用。確定了"為"的詞性,歧義切分字
段"為人生"的正確分詞結果"為/人生"也被隨之確定下來,可見句法知識不僅解決了詞性
的確定,同時也解決了歧義的切分。詞類判別和切詞是同時進行而不可分離的。
目前把切詞和詞類標注分離開將帶來什麼結果呢?還是以《分詞規范》為例,它明確
規定,"場、室、界、力"等字用在某個單位的末尾時,就要一律按"接尾詞"單獨切分,比如
:運動/場、會議/室、新聞/界、生產/力等。因為切詞的目的不是為切詞而切詞,而是要
為進一步的句法分析和理解語言服務,那麼,詞性標注就成為下一步不可或缺的工作。但
這時,上面的分詞結果就出現了麻煩。"場、室、界、力"如果是詞也只能是名詞,可它們
是詞嗎?如果是詞,為什麼它們從來都不能獨立運用,單獨成詞,而只能以附加的成分出現
在某些名詞性成分之後?語言中真的有粘著的"名詞"嗎?答案都只能是否定的。這種把構
詞成分誤作"分詞單位"切分的做法造成的上述不能自圓其說的窘況,正是脫離詞類標注單
獨切詞的結果。
鑒於此,我們深感應將切詞和詞類標注作為理解和分析語言材料的兩個不可分離的環
節,進行一體化處理。這樣做,才真正符合人處理語言和過程的特點,才無愧於"人工智慧
",由此而得出的結果才可能達到預期效果。
三、應加強漢語文本自動語義標注試驗
在中文信息處理中,詞彙、句法和語義層面的分析研究都需要藉助於詞義特徵。一詞
多義形成了詞的多義現象,自動語義標注主要是解決詞的多義問題。一詞多義雖然是自然
語言中的常見現象,但是在一定的上下文中一個詞一般只能解釋為一個義項。所謂自動語
義標注就是運用邏輯運算和推理機制,對出現在一定上下文中的詞語語義的義項進行正確
的判斷,確定其正確的語義,並加以標注。多義詞的排歧一直是一個老大難問題。
國內對於漢語文本自動語義標注的研究已經起步,並正在進行中。山西大學在漢語全
文檢索中進行了義項標注研究,並對《太原市地方誌大事記》進行了義項標注試驗。這份
材料從公元前514年到1990年,分為10個歷史階段,包括了太原歷史上的政治、經濟、軍事
、文化、科技諸方面具有劃時代意義的事件。全文共50萬漢字語料,經義項標注後,主要
解決了人名、地名、機構名等專有名詞的同義現象,同時提出了普通詞義項標注方法,包
括同義詞的確定和多義詞的排歧。
2. 副詞縮寫ad.和adv.的區別
adj(形容詞)櫻岩:
一般用於修飾名詞或者代詞。形容詞靠近所修飾的名詞或代詞,作定語。
adv(副詞):
一般用於修飾形容詞或動詞。副詞一般以ly結尾. 副詞在句中作狀語,一般靠近謂語動詞或源辯者在句首或者句末。
一、(2)詞性演算法擴展閱讀:
形容雹頌缺詞(Adjective),很多語言中均有的主要詞類中的一種。形容詞主要用來描寫或修飾名詞或代詞,表示人或事物的性質、狀態、特徵或屬性,常用作定語,也可作表語、補語或狀語。
副詞(Adverb 簡稱adv.)是指在句子中表示行為或狀態特徵的詞,用以修飾動詞、形容詞、其他副詞或全句,表示時間、地點、程度、方式等概念。副詞可分為:時間副詞、頻率副詞、地點副詞、方式副詞、程度副詞、疑問副詞、連接副詞、關系副詞、表順序的副詞。
二、例句分析:
①a. Joelle is a pretty child.(形容詞)
b. Tom will be back pretty soon.(副詞)
②a. The old man has been ill for some time.(形容詞)
b. Don't speak ill of others.(副詞)
③a. What a deep ocean it is !(深的)
b. The boy g deep into the ground.(深)
④a. Look at the high mountain!(高的)
b. Birds fly high in the sky.(高)
⑤a. John came late yesterday.(遲)
b. John has been working hard lately.(最近)