當前位置:首頁 » 編程語言 » pythonictclas

pythonictclas

發布時間: 2025-01-04 01:37:03

1. 自然語言處理中語料預處理的方法

語料庫清理

清洗語料庫就是保留語料庫中有用的數據,刪除噪音數據。常見的清洗方法有:手動去重、對齊、刪除、貼標簽等。

以下面的文字為例。這個文本不僅包含漢字,還包含數字、英文字元、標點符號等非常規字元,這些都是無意義的信息,需要清理。

像上面這種情況,清理方法主要是通過正則表達式。可以寫一個簡短的Python腳本來求解,代碼如下:

清潔後的結果:

除了以上需要清理的形式,雜訊數據還包括文本重復、錯誤、遺漏、異常等。清理的方法有手工處理,或者通過開發小工具,寫個小程序,都可以清理數據。

分詞

清理完數據,就可以進行下一步了:文本分割。文本分割,即將文本分割成單詞。常用的分詞方法有基於規則和基於統計的分詞方法,統計樣本內容來自一些標准語料庫。

比如這句話:「小明住在朝陽區」,我們期望語料庫統計後的分詞結果是「小明住在朝陽區」,而不是「小明住在朝陽區」。那麼你是如何做到這一點的呢?

從統計學的角度來說,可以用條件概率分布來解決。對於一個新句子,通過計算各種分詞方法的聯合分布概率,找到最大概率對應的分詞方法,就是最好的分詞。

到目前為止,研究人員已經開發了許多實用的分詞工具,使用起來非常簡單。如果對分詞沒有特殊要求,可以直接使用這些分詞工具。

各種分詞工具的列表。

詞性標注

詞性標注是指在切分結果中標注每個詞的正確詞性,即確定每個詞是名詞、動詞、形容詞還是其他詞性的過程。

詞性標注有很多重要的功能。

第一,消歧。有些詞在不同的上下文或用法中有不同的意思。比如「這只狗的名字叫開心」和「我今天很開心」這兩句話里,「開心」就有不同的意思。我們可以通過詞性標注來區分它們。

第二,強化以詞為基礎的特徵。以上面這句話為例。如果不進行詞性標注,會將兩個「開心」字視為詞頻為2的同義詞,導致後續分析出錯。

此外,詞性標注具有標准化、詞形還原和有效去除停用詞的功能。

常用的詞性標注方法包括基於規則和統計的演算法,如最大熵詞性標注和HMM詞性標注。

接下來,我們來看一個詞性標注的例子。你也可以自己試試:http://ictclas.nlpir.org/nlpir/

去阻止文字。

我們在接受新聞的時候,會過濾掉無效的信息,篩選出有用的信息。對於自然語言來說,去停詞是一種明智的操作。

一篇課文,無論是中文還是英文,都有連詞、虛詞、語氣詞等無意義詞,如「的」、「把」、「但是」等。這些詞沒有特定的含義,只是用來連接句子和增強語氣。這些詞對文本分析也沒有幫助,所以我們需要對切分後的數據做停用詞處理。

但是我們應該仔細決定刪除哪種停用詞。

下圖列出了一些常用的非索引字表。您可以根據需要選擇要刪除的停用字詞。

詞頻統計

詞頻統計是統計分詞後的文本的詞頻。目的是找出對文本影響最大的詞,是文本挖掘的重要手段。統計這些詞的出現頻率,可以幫助我們理解文章所強調的內容,進而方便後續的模型構建。

例如,我們可以統計四大古典小說之一的《紅樓夢》中的前28個詞,結果如下:

從上圖可以看出,《紅樓夢》中哪個人物的篇幅最多,曹雪芹更關注哪個人物。即使我們不是紅學專家,也能從統計的詞頻中分析出一些關鍵信息。

2. 怎麼製作人工智慧


人工智慧(AI)取代閣下工作好像是明日發生就要發生的事。曾任職微軟(Microsoft)和Google 的李開復說很多職位將被取代,牛津大學說10 年後近半美國職位將處於高度自動化(即人類無得撈);盡管不少人學者認為AI 消滅工作但同時創造新工種。不如簡單點:看看有那些工作會因為人工智慧發展而吃香。

研究構構Tech Pro 引述求職網站Indeed 數據,列出6 大待遇優渥的AI 工種,包括:機器學習(Machine Learning)工程師、數據科學家、研究科學家、科研專家、商業智能(BI)開發員、電腦視覺工程師,以上職位平均年薪逾136,000 美元)。心動吧?很明顯,以上只是反映美國數據(惟香港情況應相差不遠),求職者亦需要先經學術訓練才能勝任AI 工作。

人工智慧類工種需要的技能當然包括編程,C / C++、Java、Python 等編程語言背景是基本,因這跟機器學習有關,有自然語言處理(NLP)技術等經驗更佳。還有不要忘記:數學。AI 正正涵蓋高等數學及資訊科技知識,如:線性代數、矩陣、凸優化(Convex Optimization)、概率論。未掌握以上基礎,邏輯能力和分析能力便無從建立,遑論以AI 研發為職業。

除了科學技術,要做成功的「AI 從業員」,最好也學習商業知識,如把機器學習模型結果轉化為企業或消費者可用的系統;多參加交流會議、閱讀近期科學出版物,對吸收新知識應付日益復雜的環境也很重要。

Gartner 早前發表報告預計,人工智慧將消滅180 萬職位,但到2020 年又會在新興領域創造230 萬個工作崗位;Capgemini 調查又指,83% 受訪公司表示因打算或正採用AI 技術而需開新職位。因此,機會總是有的,但如何令它屬於你,便要懂得如何裝備自己。

熱點內容
c語言編輯器好多程序不能編譯 發布:2025-01-06 00:02:01 瀏覽:324
負債如何打造資產配置 發布:2025-01-05 23:47:02 瀏覽:429
緩存視頻途徑 發布:2025-01-05 23:42:04 瀏覽:990
win10文件夾亂碼 發布:2025-01-05 23:07:50 瀏覽:984
黑妞ftp 發布:2025-01-05 22:56:08 瀏覽:777
便宜的安卓手機用哪個系統好 發布:2025-01-05 22:54:37 瀏覽:242
聯通賬號密碼在哪裡輸 發布:2025-01-05 22:49:41 瀏覽:660
我的世界如何開15個人的伺服器 發布:2025-01-05 22:43:40 瀏覽:208
this訪問static變數 發布:2025-01-05 22:23:11 瀏覽:193
路由器的首選dns伺服器怎麼填 發布:2025-01-05 22:02:43 瀏覽:426