演算法語言學
Ⅰ 什麼是演算法
通俗點說,就是計算機解題的過程。在這個過程中,無論是形成解題思路還是編寫程序,都是在實施某種演算法。前者是推理實現的演算法,後者是操作實現的演算法。一個演算法應該具有以下五個重要的特徵: 有窮性: 一個演算法必須保證執行有限步之後結束; 確切性: 演算法的每一步驟必須有確切的定義; 輸入:一個演算法有0個或多個輸入,以刻畫運算對象的初始情況,所謂0個輸入是指演算法本身定除了初始條件; 輸出:一個演算法有一個或多個輸出,以反映對輸入數據加工後的結果。沒有輸出的演算法是毫無意義的; 可行性: 演算法原則上能夠精確地運行,而且人們用筆和紙做有限次運算後即可完成。 Did you knowAlgorithm 一詞的由來Algorithm(演算法)一詞本身就十分有趣。初看起來,這個詞好像是某人打算要寫「Logarithm」(對數)一詞但卻把頭四個字母寫的前後顛倒了。這個詞一直到1957年之前在Webster's New World Dictionary(《韋氏新世界詞典》)中還未出現,我們只能找到帶有它的古代涵義的較老形式的「Algorism」(算術),指的是用阿拉伯數字進行算術運算的過程。在中世紀時,珠算家用算盤進行計算,而算術家用算術進行計算。中世紀之後,對這個詞的起源已經拿不準了,早期的語言學家試圖推斷它的來歷,認為它是從把algiros(費力的)+arithmos(數字)組合起來派生而成的,但另一些人則不同意這種說法,認為這個詞是從「喀斯迪爾國王Algor」派生而來的。最後,數學史學家發現了algorism(算術)一詞的真實起源:它來源於著名的Persian Textbook(《波斯教科書》)的作者的名字Abu Ja'far Mohammed ibn M�0�4s�0�9 al-Khow�0�9rizm (約公元前825年)——從字面上看,這個名字的意思是「Ja'far 的父親,Mohammed 和M�0�4s�0�9 的兒子,Khow�0�9rizm 的本地人」。Khow�0�9rizm 是前蘇聯XИBA(基發) 的小城鎮 。Al-Khow�0�9rizm 寫了著名的書Kitab al jabr w'al-muqabala (《復原和化簡的規則》);另一個詞,「algebra」(代數),是從他的書的標題引出來的,盡管這本書實際上根本不是講代數的。逐漸地,「algorism」的形式和意義就變得面目全非了。如牛津英語字典所說明的,這個詞是由於同arithmetic(算術)相混淆而形成的錯拼詞。由algorism又變成algorithm。一本早期的德文數學詞典 Vollstandiges Mathematisches Lexicon (《數學大全辭典》) ,給出了Algorithmus (演算法)一詞的如下定義:「在這個名稱之下,組合了四種類型的算術計算的概念,即加法、乘法、減法、除法」。拉頂短語algorithmus infinitesimalis (無限小方法) ,在當時就用來表示Leibnitz(萊布尼茲)所發明的以無限小量進行計算的微積分方法。1950年左右,algorithm一詞經常地同歐幾里德演算法(Euclid's algorithm)聯系在一起。這個演算法就是在歐幾里德的《幾何原本》(Euclid's Elements ,第VII卷,命題i和ii)中所闡述的求兩個數的最大公約數的過程(即輾轉相除法)。
Ⅱ 語言學是如何發展的
現代語言學的主要發展歷程
(一)歷史比較語言學
在現代語言學發展的初期,歷史比較語言學通過在世界各地搜集和整理語言標本,通過豐富的第一手資料的比較、分類、歸納、總結,發現了語言的不斷演變發展的客觀歷史。語言學家在把各個時期的語言、語法、詞彙對應關系加以對比研究後,證實了印歐諸語言的有機聯系,並且開始研究本族語及其親屬語言的聯系和它們的發展規律,從而打破了形而上學的固定不變的框架,建立了現代語言學的第一個里程碑。
但是歷史比較語言學也有它的局限性:它過分偏重於語言的縱向歷史研究,面忽視了橫向的系統研究。到了20世紀初,現代語言學進入了第二個時期,產生了結構主義語言學。
(二)結構主義語言學
結構主義語言學認為每種語言都有一套獨特的關系結構,語言中的個別單位都是在跟其他單位的區別和對立中存在的,而不是孤立存在的。結構主義學派的創始人、瑞士語言學家索緒爾的《普通語言學教程》是一部劃時代的著作,他在書中提出的新的概念、原則和理論為現代語言學研究打下了科學的基礎。
索緒爾認為語言行為有兩部分不同的性質,一部分具有社會性,是主要的具有共性的本質,稱為「語言」(langue),另一部分具有個別性,是次要的,因人而異,稱為「言語」(parole)。這兩個部分是互相聯系的,但是它們有本質上的差別,應該分別對待。語言和言語是互相依存的。語言既是言語的工具,又是言語的產物。
按照索緒爾的學說,語言的特點在於聲音和意義之間的關系,這些關系有一定的結構規劃,從而組成了語言的符號系統。符號由「能指」和「所指」兩部分構成。索緒爾還指出了語言的橫線組合關系和豎線聚合關系的特點。
布龍菲爾德的《語言論》是美國結構主義語言學的奠基性著作。他提出了語言的科學描寫的標准,制定了描寫語言結構的總框架。他認為語言是音義結合的詞彙和語法兩部分構成的整體,描寫語言結構應該從音位學開始。
結構主義採用了系統論的原則,即整體性原則、結構性原則、層次性原則、動態性原則。這些原則非常適用於語言這個系統。結構主義語言學對認識語言的系統性做出了突出的貢獻。
到了20世紀中葉,語言學由於受到數理邏輯的影響,進入了第三個時期--語音、語法、語義、語用的綜合研究時期,這一時期的特點是:把語言看作復雜的信息系統,不僅用實驗技術和歸納方法,而且採用建立數學符號模型和形式演繹的方法。實驗語言學將語言結構劃分出詞句層次、音節層次和音素層次等等。
(三)轉換生成語言學
美國語言學家喬姆斯基不滿足於觀察言語行為的表面現象,而要探索內在的語言能力。他提出了一個全新的語言觀:語言這個概念是從語法派生出來的。他在1957年出版了著名的《語法結構》一書,提出了「轉換生成語法」。
喬姆斯基把語言學看成跟自然科學一樣,可以從假設出發,進行推演並形式化。他提出把句法關系作為語言結構的中心,並且以此說明語言的生成性。喬姆斯基區分了語言的深層結構和表層結構,指出語言學家的任務是揭示深層結構到表層結構的轉換。他認為研究語言的目的不應當只是分類的描寫,而應當建立起一整套的形式化的演繹系統,這種形式系統包含有限的語法規則,卻能生成無限的符合語法的句子,並且能對句子的結構做出描寫。喬姆斯基還假設人們有一種語言習得機制,它可以用嚴謹的數學模型來加以類比和推導。他認為語言能力是人類天賦的,語言行為是語言能力的具體表現。
喬姆斯基的全新的語言觀被認為是一場語言學的革命。它所產生的巨大影響波及到世界各國的語言學界,而且,還在數學、社會學、哲學、心理學和計算機科學等廣大領域里產生了相當大的影響。
(四)系統功能語言學
以英國的語言學家韓禮德為代表的功能學派認為語言是一種社會現象,強調交際和交流是語言的基本功能,因此,研究語言不僅要重視它的形式結構意義,而且要重視詞句與社會文化的情景意義。韓禮德認為系統是第一性的,並且對語義功能進行了系統分類。他從語言運用的角度提出了語言有三種功能:概念功能、人際功能和語篇功能。
韓禮德認為,結構研究是語言的表層形式,而系統研究是語言的深層形式,是語言的意義潛勢(meaningpotential),這二者是互相聯系的,缺少其中任何一項都不能對語言進行全面的描寫。
系統功能語法學派認為語言首先是一種「行為」,是一種「做」(doing)的形式,而不是一種「知」(knowing)的形式。也就是說,僅僅具有語言知識是不夠的,重要的是要能夠實際運用語言。語言行為是人與人之間、人與環境之間進行交往、相互作用的社會現象。運用系統理論研究語言,就是把語言看作一種社會符號系統,並且用這一符號系統來認識社會,認識社會與人以及人與人之間的關系,最終建立動態化的語言社會模式。系統理論把研究重點放在語篇上,認為語言必須通過特定的語言組合(即存在於某一特定語境中的語篇),才能充分實現其意義。
韓禮德的語言理論不但探討了語言的形式,還研究了語言的意義和功能,並且分析了語言與社會的關系。系統功能語法把語言的實際使用作為研究對象,並且在應用過程中不斷地檢驗和完善理論,具有較強的科學性和實踐性。
現代語言學的發展前景
20世紀電子計算機問世以來,與語言學相結合,使語言學發生了巨大的變化。計算機的使用是今天語言學研究迅速發展的重要因素。同時,計算機也離不開語言學,因為計算機軟體的核心是演算法語言,計算機科學的主要理論基礎是形式語言學。可以說,沒有現代語言學,計算機就無法得到充分的發展和廣泛的應用。語言學與計算機是緊密聯系,互相促進的。
語言學是一門復雜的科學。對於其中的許多問題,各種學派的觀點很不相同,看法還很不一致。可以說,語言的奧秘至今還沒有完全被人類真正認識,許多問題還需要作進一步的探索。現代語言學的發展說明,我們應該多角度、多層次、全方位地研究語言,對語言體系、言語活動、言語機制等各方面進行深入廣泛的研究,才能全面深刻地認識語言的奧秘,更好地運用語言和充分發揮語言的作用。隨著語言科學的發展,語言學應用的方面越來越廣。由於不同學科之間的互相滲透,產生了應用語言學、社會語言學、心理語言學、神經語言學、數理語言學、計算語言學(工程語言學)、統計語言學、模糊語言學、語料庫語言學、話語語言學(篇章語言學)、教育語言學、對比語言學、人類語言學、類型語言學、民俗語言學、文化語言學、藝術語言學、傳播語言學、公關語言學、寫作語言學、生理語言學、生物語言學、輔助語言學、宇宙語言學等等語言學的眾多分支學科,而且今後必然還會出現更多的與語言學相關的交叉學科。此外,速記、機器翻譯、信息處理、情報檢索、語言規劃等許多與語言有關的問題也值得我們進一步地認真研究。
語言是人類特有的寶貴財產。沒有語言,就沒有人類的文明。語言學是一門領先的科學,它的發展對人文科學、社會科學和自然科學的發展都有重大意義。人類對語言的認識經歷了漫長道路,如今還在繼續向前探索。從古到今,語言學家們的視野逐步擴大,探索逐步深入。語言學家的研究從古代語言轉向現代語言,從書面語轉向口語,從個別的語言項目轉向整個的語言系統,從一種語言的某些特徵轉向多種語言共同特徵,從語言的結構轉向語言的功能,從語言的表面形成轉向語言的深層意義,從語法、詞彙轉向語義、語用,從把語言作為一個孤立的研究對象轉向研究語言與社會文化等等的千絲萬縷的聯系,研究的范圍越來越廣,頭緒越來越多。近幾十年來語言學的迅速發展,已經引起了學術界的關注。語言學和各種科學思潮的關系,是近代自然科學和社會科學交叉滲透的重要部分,語言學的思想和方法對哲學和其他學科都產生過極大的影響,推動著語言科學不斷向前發展。人類在探索神奇的語言奧秘的過程中,視野必然會越來越開闊,認識也將會越來越深化。語言學的研究有著非常美好的發展前景。
Ⅲ nlp演算法是什麼
nlp演算法是自然語言處理。
自然語言處理( Natural Language Processing, NLP)是計算機科學領域與人工智慧領域中的一個重要方向。
它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。
nlp演算法發展:
在一般情況下,用戶可能不熟悉機器語言,所以自然語言處理技術可以幫助這樣的用戶使用自然語言和機器交流。從建模的角度看,為了方便計算機處理,自然語言可以被定義為一組規則或符號的集合,我們組合集合中的符號來傳遞各種信息。
這些年,NLP研究取得了長足的進步,逐漸發展成為一門獨立的學科,從自然語言的角度出發,NLP基本可以分為兩個部分:自然語言處理以及自然語言生成,演化為理解和生成文本的任務。
Ⅳ 深度學習在nlp領域成績斐然,計算語言學家該不該驚慌
深度學習首先在圖像、聲音和語義識別取得了長足的進步,特別是在圖像和聲音領域相比傳統的演算法大大提升了識別率,其實也很容易理解,深度學習是仿人來大腦神經感知外部世界的演算法,而最直接的外部自然信號莫過於圖像、聲音和文字(非語義)。
圖像識別:圖像是深度學習最早嘗試的領域,大牛Yann LeCun早在1989年就開始了卷積神經網路的研究,取得了在一些小規模(手寫字)的圖像識別的成果,但在像素豐富的圖片上遲遲沒有突破,直到2012年Hinton和他學生在ImageNet上的突破,使識別精度提高了一大步。2014年,香港中文大學教授湯曉鷗領導的計算機視覺研究組開發了名為DeepID的深度學習模型, 在LFW (Labeled Faces in the Wild,人臉識別使用非常廣泛的測試基準)資料庫上獲得了99.15%的識別率,人用肉眼在LFW上的識別率為97.52%,深度學習在學術研究層面上已經超過了人用肉眼的識別。
當然在處理真實場景的人臉識別時還是差強人意,例如人臉不清晰,光照條件,局部遮擋等因素都會影響識別率,所以在實際操作中機器學習與人工確認相結合,更加妥當。國內做人臉識別的公司眾多,其中Face++、中科奧森、Sensetime、Linkface、飛搜科技都是走在前面的,在真實環境運用或者在垂直細分領域中有著深厚的數據積累。在基於面部特徵識別技術的情緒識別領域,閱面科技與Facethink(Facethink為天使灣早期投資項目)是國內少數進入該領域的初創公司。
Ⅳ 想從事嵌入式開發,C語言學演算法要學到很高深嗎
這樣的,演算法的意義是在於優化程序使它擁有更高的運行效率和節省更多的內存空間,但是如今科技發展的速度讓人很少去關注這個問題(之前本人問一個同學為什麼用C語言寫程序不用匯編,他鄙視了我)
需要用到大量的演算法的程序一般都有著很大的運算要求(MC這種不科學的情況另談),如果題主以後是打算從事嵌入式系統開發的話可以學一下,不用精,如果以後是從事嵌入式軟體開發的話,就不用學了。
另外,嵌入式可以把注意力集中到C++(嵌統的當本人沒說),學會調用別人的庫後,一般都不會去考慮這個問題
Ⅵ nlp演算法是什麼
nlp演算法是自然語言處理。
自然語言處理( Natural Language Processing, NLP)是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。
相關信息:
自然語言處理是指利用人類交流所使用的自然語言與機器進行交互通訊的技術。通過人為的對自然語言的處理,使得計算機對其能夠可讀並理解。自然語言處理的相關研究始於人類對機器翻譯的探索。
雖然自然語言處理涉及語音、語法、語義、語用等多維度的操作,但簡單而言,自然語言處理的基本任務是基於本體詞典、詞頻統計、上下文語義分析等方式對待處理語料進行分詞,形成以最小詞性為單位,且富含語義的詞項單元。
Ⅶ 計算語言學文科能學嗎
文科生學習計算機語言學是可行的,確實有一定的難度。知乎上已經有計算機語言學的專業人士對這個學科所需要的知識做了比較系統的歸納,我們在這里分享一個學生案例,據此來說說文科生應該如何去轉專業學習計算機科學。
一、 計算語言學從哪些方面來准備
作為一個交叉學科,這個專業的人一定是「能文能武」的。
課程方面:
語言學:
不知道小夥伴們的「文科」具體是什麼。我有一位學生是法英雙語專業出身,她的專業課上直接就包括了「話語分析」。通過專業課的學習,學生了解到如何將相關信息關聯、組織和表達,並且被人所理解。我們認為「理所當然」的表達和被理解,其實微妙的被數量原則、質量原則、關聯原則、方式原則等基礎會話原則所操控。
除了課堂學習之外,學生又主動閱讀了大量語言學著作,比如 B.布洛赫、G.L.特雷傑《語言分析綱要》和索緒爾的《普通語言學教程》等,加深對句法、語義等的理解。這是計算語言學最重要的理論基礎。
計算機方面:
這一塊也是大多數文科生,或者轉專業申請的學生最為 concern 的。實話說不是計算機科班出身的人確實難度不小。演算法、機器學習等概念對於「碼農」們來說是很基礎的,但是純文科生會顯得非常難和陌生。
這里要給文科同學打雞血了。剛才介紹的法英雙專業的同學是個妹紙,而且是一個非常有決心和毅力的妹紙。自從有了從事自然語言處理(NLP)職業的想法後,她利用大三的寒假時間,參加了一個 Python 的訓練營,高強度的實戰訓練,讓她從最初的零基礎,到利用編程來建模用實際數據解決問題。
作為文科生,她在中間也遇到過很多困難,但是選擇了堅持下來。除此以外,她申請跨到計算機繫上了數據結構、機器學習、Java 編程等課程,這些基礎課的學習,對於一個文科生轉到計算機語言學專業是非常重要的。
科研/實習:
計算機語言學是一個應用性很強的專業,僅僅完成一些課程的學習是遠遠不夠的。該同學在申請季前夕參加了一個自然語言處理和深度學習的項目,對她研究生轉專業是至關重要的。
在該項目中,她獨立製作了一個聊天機器人(Chatbot),採用天氣預報數據作為素材,進行訓練,讓機器人可以回答關於某個城市的天氣狀況和空氣質量等信息。該項目中間也遇到了諸多挑戰,比如機器人「答非所問」,語調生硬等等,啟發她思考如何來加強語義分析和情感識別方面。一些項目中待解決的問題也直接激發了學生繼續深造的熱情。
二、 申請美國研究生的策略問題
正如其他業內知乎答主的所說,美國始終走在計算機語言學的科研前沿。有條件的情況下,申請一個美國的研究生,將成為文科同學走進計算機語言學領域,從事相關工作的一個重要踏板。
但是該領域近年來隨著「機器學習」「人工智慧」等概念變得炙手可熱。大量計算機背景的申請者都來申請這個項目,使其難度對於文科背景的申請者來說是很大的。
選校是其中關鍵一環,這個要根據申請者自身的競爭實力和學校的錄取難度以及未來職業規劃來綜合決定,所謂的「知己知彼」才能「百戰不殆」。
而這時候往往申請者對於國外院校的了解也只是學校官網和一些留學網站上面碎片化的信息,對於自身的定位更是難以把控。還有就是搜集和整理這些碎片化的信息,製作自己獨特的文書其實也是需要耗費自己大量的時間經歷的。
筆者在 7 年間輔導過很多同學進行半 DIY 申請,發現很多同學這個時候也還在努力的刷 GRE、托福成績,同時大三暑假基本都在做全職的實習,大四上學期申請季也都還有學校的科研項目在做,或者還有幾門課程在上。這樣的矛盾情況下,其實選擇咨詢計算語言學親歷過整個申請過程的「過來人」和對近年來積累了大量輔導同學成功案例的老師可以事半功倍。
作為棕櫚大道的「全能主導師」之一,我就真的要安利了。
前面所說的那位同學由於有較好的前期規劃,做了很多准備工作,申請季的時候,我們給她安排了在 UW 就讀的何學長幫助她分析自身定位,選擇了計算機語言學比較有名的幾所學校,又避免了以自己所短,來博他人之長(那些純 CS 的同學在某些特別強調演算法和編程背景的學校有很強的競爭)。
同時,文書的打造也是重要的環節,個人陳述配合好簡歷等其他材料,展現申請者獨特的優勢。通過與申請者詳細的溝通,我們深入挖掘她的興趣,巧妙的展現她獨特的「文科」-語言學方面的理解和優勢,同時恰到好處的展現她對於自然語言處理方面的熱情和清晰的職業規劃,最終成功地打動了評審委員會。同學目前已經拿到了 ASU 的 offer,還在爭取其他學校的錄取。
最後希望文科有志於轉計算機語言學的同學們都能勇敢地追隨自己的夢想!
Ⅷ 語言學在人工智慧的應用都有哪些
人類語言主要通過說話和寫字承載。那顯然,語言學(Linguistics)對人工智慧(ArtificialIntelligence)助力較大的領域,就是教計算機識別人說的話(語音識別),教計算機生成人說的話(語音合成)、教計算機理解人寫的字(自然語言處理)、以及教計算機生成文本(自然語言生成)這四個方面了。實現以上四個任務,簡單粗暴地說,是需要把人類說的話和寫的字用統計模型描述出來。那統計模型應該怎麼得到呢,通過數據訓練出來。這些數據是什麼呢?那就是有語言學標注的文本或者語音了。拿個語音合成的小例子舉例。例如,你想語音合成一句句子「Dr.SmithlivesinNYC.」輸入是這句文本,輸出是waveform。大致思路是你要通過文本的語言學標注找到符合語音學標注的音素,再拼起來。
Ⅸ 計算語言學的成果
計算語言學可以說是計算機和語言學相結合的產物。這種結合已經得到豐碩的成果,除了上面說到的那些應用課題以外,還表現在對語言學理論和方法的影響上。語言的定義擴展了:語言已不僅是人類重要的交際工具,而且也是人機之間的交際工具。為了滿足計算機加工的要求,計算語言學最大的特點就是要求語言的形式化,因為只有形式化,才能演算法化、自動化。根據這項要求,制定出一系列面向語言信息處理的自動分析方法,其中包括預示分析法、從屬分析法、中介成分體系、優選語義學、擴充轉移網路、概念從屬論等等。這些自動分析方法,已在機器翻譯和自然語言理解的系統中得到應用,並證明有效。語言的形式化是分層進行的。語法的形式化相對來說比較簡單,人們已做了不少工作;語義的形式化則是一個復雜的問題,人們進行的工作還不多。而語義形式化問題解決得好壞,將大大影響語言自動加工的成效。因此,繼續發掘行之有效的形式結構分析方法和語義分析方法,研究它們之間的關系,以及探討它們在不同系統中各自使用的限度,這是計算語言學中的重點研究課題。
第五代計算機要求人們賦予它聽覺(識別口語)和更強的視覺(自動識別文字),賦予它說話能力(合成言語)和聽寫能力(語音打字),同時還要求人們賦予它理解自然語言並把某種(或多種)自然語言翻譯成另一種(或多種)自然語言的能力。這樣,計算語言學工作者又需要提供各種物理參數、語言概率性等方面的數據和各種應用軟體,以便同有關的專家、工程師一道共同解決為計算機增添「翅膀」這個重大課題,使之真正成為「萬能的智能機器」。
完成上述任務,必須靠整個語言學界的努力和合作。盡管面向機器的語言學有其獨特性,在許多方面都要另起爐灶,但是實踐證明:傳統語言學的基礎雄厚與否對解決一些新任務有很大關系,例如傳統的英漢對比語言學研究得好,就會給英漢機器翻譯提供很多方便。從這個意義上講,計算語言學只有很好地吸取傳統語言學的成果並加以改造,才能得到迅速發展。