當前位置:首頁 » 操作系統 » 語料資料庫

語料資料庫

發布時間: 2022-05-10 11:29:44

❶ 能夠用於tf-idf的語料庫(python學習).

您好,推薦使用CRAFT語料庫
CRAFT(Colorado Richly Annotated Full-Text)語料庫,中文名科羅拉多豐富語料注釋庫。CRAFT收錄了97篇可公開獲取全文的生物醫學期刊文獻,並將這些文章在語義和句法上都作了詳盡的注釋以作為自然語言處理(NLP)社區的生物醫學研究資源。CRAFT基於9個常用的生物醫學本體,從這97篇文獻中識別了所有的生物學實體,這些本體包括:細胞類型本體,小分子化合物本體(CHEBI),NCBI分類法,蛋白質本體,序列本體,Entrez Gene資料庫的條目,以及基因本體(Gene Ontology)的三個子條目。CRAFT語料庫已被廣泛應用於對文本挖掘工具的性能測試中。當然也可以用於TF-IDF方法。
TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(Inverse Document Frequency)。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。

❷ 海天瑞聲的語音識別資料庫和語音合成資料庫有什麼區別啊

人機語音交互技術,粗略說來,包含語音識別(聲音轉文字)和語音合成(文字轉聲音)兩種技術。語音識別指電腦分析人的語音,將之轉換為文字,從而代替鍵盤輸入。而准確的識別,還包含了自然語言理解技術。與語音識別對應的是電腦將文字轉換為語音的合成技術。語音識別資料庫,就是用來訓練語音識別引擎的訓練語料;語音合成資料庫,是用來訓練語音合成引擎的訓練語料。一般來說,訓練語料規模越大、語料音素設計、性別年齡等因素考慮的越合理,訓練效果就越好。海天瑞聲最大的優勢,就是多語種的語音合成和語音識別訓練語料數據資源。

❸ 中國語言資源有聲資料庫的簡介

中國擁有55個少數民族,除滿族和回族已使用通用漢語外,其他民族都有自己的語言,有些民族內部的不同支系還使用著不同的語言。因此,傳承和發展少數民族語言文字和文化,成為中國保護語言多樣性的關鍵工作。中國教育部民族教育司官員沙瑪加甲介紹說,中國各語言區逐步開展的雙語教學,有效地保護了民族語言。
國家語委於2008年啟動了「中國語言資源有聲資料庫建設」,按照科學、統一的規劃,調查收集當代漢語方言、少數民族語言和帶有地方特色的普通話的實態、有聲語料,並進行科學整理、加工和有效保存,為推進中國語言信息化、推廣普通話和社會文化建設服務。這是一項具有深遠意義的國家重大語言文字工程。
該有聲資料庫將依照統一規范,採集當代中國的漢語方言和帶有地方特色的普通話的有聲資料,採集中國各少數民族語言及其方言的有聲資料,並進行科學的整理加工,長期保存,以便將來深入研究和有效地開發利用,保護民族語言文化遺產。

❹ 什麼叫語料庫

網路上也有解釋呀 不過估計您也看過了哈
我根據自己的理解用自己的話解釋一下,希望能幫到您哈~
語料庫就是把平常我們說話的時候的句子、一些文學作品的語句段落、報刊雜志上出現過的語句段落等等在現實生活中真實出現過的語言材料整理在一起,形成一個語料庫,以便做科學研究的時候能夠從中取材或者得到數據佐證。
例如我如果想寫一篇關於「給力」這個詞的普及性的文章,就可以到語料庫中查詢這個詞出現的頻率、用法等等。

❺ 語音語料怎樣存入資料庫

1打開企業管理器,打開要導入數據的資料庫,在表上按右鍵,所有任務--導入數據,彈出DTS導入/導出向導,按 下一步 ,
2、選擇數據源 Microsoft Excel 97-2000,文件名 選擇要導入的xls文件,按 下一步 ,
3、選擇目的 用於SQL Server 的Microsoft OLE DB提供程序,伺服器選擇本地(如果是本地資料庫的話,如 VVV),使用 SQL Server身份驗證,用戶名sa,密碼為空,資料庫選擇要導入數據的資料庫(如 client),按 下一步 ,
4、選擇 用一條查詢指定要傳輸的數據,按 下一步 ,
5、按 查詢生成器,在源表列表中,有要導入的xls文件的列,將各列加入到右邊的 選中的列 列表中,這一步一定要注意,加入列的順序一定要與資料庫中欄位定義的順序相同,否則將會出錯,按 下一步 ,
6、選擇要對數據進行排列的順序,在這一步中選擇的列就是在查詢語句中 order by 後面所跟的列,按 下一步 ,
7、如果要全部導入,則選擇 全部行,按 下一步,
8、則會看到根據前面的操作生成的查詢語句,確認無誤後,按 下一步,
9、會看到 表/工作表/Excel命名區域 列表,在 目的 列,選擇要導入數據的那個表,按 下一步,
10、選擇 立即運行,按 下一步,
11、會看到整個操作的摘要,按 完成 即可。

❻ 現代漢語語料庫

提供如下:
北京大學語料庫http://ccl.pku.e.cn/Yuliao_Contents.Asp
北語語言信息處理研究所CCRL 漢語檢索通 (可以使用)
介紹:http://lib.blcu.e.cn/qt/zy32.htm
使用http://202.112.195.6:800/
北京大學《人民日報》標注語料庫:http://www.icl.pku.e.cn
北京語言大學的語料庫:http://www.blcu.e.cn/kych/H.htm
清華大學的漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.e.cn/ainlp/source.htm
山西大學的語料庫: http://www.sxu.e.cn/homepage/cslab/sxuc1.htm

台灣中研院的語料庫:
現代漢語平衡語料庫:http://www.sinica.e.tw/SinicaCorpus
或 http://www.sinica.e.tw/~tibe/2-words/modern-words/
或 http://www.sinica.e.tw/ftms-bin/kiwi.sh
近代漢語標記語料庫:http://www.sinica.e.tw/Early_Mandarin/
古漢語語料庫:http://www.sinica.e.tw/ftms-bin/ftmsw3
或 http://www.eastasian.ucsb.e/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi
或 http://www.sinica.e.tw/~tibe/2-words/old-words/
台灣南島語典藏:http://www.ling.sinica.e.tw/Formosan/
閩南語典藏:http://southernmin.sinica.e.tw/
漢籍電子文獻:http://www.sinica.e.tw/~tdbproj/handy1/ 查找古籍用
或 http://www.sinica.e.tw/ftms-bin/ftmsw3

香港城市大學的LIVAC共時語料庫:http://www.rcl.cityu.e.hk/livac/
或 http://www.LIVAC.org
浙江師范大學的歷史文獻語料庫: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm
中國科學院計算所的雙語語料庫:http://mtgroup.ict.ac.cn/corpus/query_process.php
中文語言資源聯盟:http://www.chineseldc.org/xyzy.htm

The Singapore Corpus of Research in Ecation
新加坡教育研究語料庫 (SCoRE)
The International Corpus of Crosslinguistic Interlanguag
國際跨語言中介語語料庫 (ICCI)
The Singapore Corpus of Preschoolers' Spoken Mandarin
新加坡學前兒童華語口語語料庫 (Wordlist)
A Corpus of Mandarin Textbooks in Singapore and Malaysia
新加坡、馬來西亞中小學華文課本語料庫 (Textbook)
An Investigation in Peer Work and Peer Talk in Singapore Primary Classrooms
新加坡小學課堂小組對話語料庫 (PWPT)
A Chinese-English Parallel Corpus of Newspaper Advertisements
新加坡報章廣告漢英平行語料庫 (Ads)
Hongloumeng Chinese-English Parallel Corpus
紅樓夢漢英平行語料庫 (HLM)
A Parallel Corpus of Chinese Legal Texts
中國法律文件漢英平行語料庫 (LAW)
The Babel English-Chinese Parallel Corpus
巴比倫英漢平行語料庫 (BABEL)
A Parallel Corpus and Web Concordances of Five Versions of Laozi
《老子》五種版本平行檢索及字詞索引 (LAOZI)
A Corpus Database of Xuan Ying's Glossary of Buddhist Sutra
玄應《眾經音義》平行檢索資料庫 (Sutra)
The Lancaster Corpus of Mandarin Chinese
蘭開斯特大學漢語語料庫 (LCMC)
The UCLA Corpus of Written Chinese
洛杉磯加州大學漢語書面語語料庫 (UCLAWC)
A Web Concordancer for Modern Chinese Literature
中國現當代文學作品檢索演示版 (Literature1)
A Web Concordancer for Modern Chinese Literature (with Chinese segmentation and POS tagging)
中國現當代文學作品檢索演示版 (附詞性標注) (Literature2)
紹興學院語料庫大全http://corpus.zscas.e.cn/

❼ 雅思口語語料庫有用嗎

想要知道自己的gpa、雅思\托福、gmat、gre等成績能申請到國外什麼大學,可以把自己的這些信息輸入到留學志願參考系統中,系統會自動從資料庫中匹配出與你情況相似的同學案例,看看他們成功申請了哪些院校和專業,這樣子就可以看到你目前的水平能申請到什麼層次的院校和專業了,對自己進行精準的定位。 定位地址可到公*眾*號【留學志願參考系統】中獲取,也可直接點擊:https://www.liuxue315.cn/dingwei/?ozs=86209-2709

❽ 組建一個語料庫需要哪些條件

首先你要明確,需要建立的是單語語料庫還是雙語語料庫。1、建立單語語料庫比較簡單,只需要准備好相關語料(古代漢語/現代漢語/英文/其他語言),將語料導入AntConc軟體進行檢索即可。知乎上有大神的帖子寫過具體方法:建立你自己的專屬英語語料庫,媽媽再也不擔心你的寫作啦2、建立雙語語料庫,你需要先准備雙語對照(如中英對照)的原文和譯文,進入Tmxmall在線對齊頁面,將語料導入進行句級對齊,再導出為tmx格式,即為自己的雙語語料庫,可以用於後續的學習和研究。

❾ bncweb語料庫怎麼注冊

1、打開網站,選擇要使用的資料庫,需要注冊個人賬號,機構選擇「Other」。
2、填寫姓名,職業,郵箱,可利用郵箱注冊。
3、進行郵箱驗證(利用網址鏈接)即可。

❿ 如何建立資料庫或語料庫

在開始-程序- MICROSOFT SQLSERVER- 企業管理器 界面下打開控制台根目錄下的所有+號展開到(LOCAL)(WINDOWS NT),它下面有+資料庫,+數據轉換服務...等等,你在「資料庫」右鍵點「新建資料庫」 就可以了
SQL2005
》打開SQL Server Management Studio 。
》系「連接到伺服器」對話框中,「伺服器類型」下拉選項選擇「資料庫引擎」,「伺服器名稱」個度默認會顯示上次連接的伺服器,可以使用計算機名稱、IP地址或是命名管道來連接。
》打開「對象資源管理器」,右擊「資料庫」可以新建資料庫。
》點擊新建資料庫後,出現一個窗口,通常只要完成常規頁面設置即可。
設置如下:
1.「資料庫名稱」要符合SQL的命名規則,唔好與現存的資料庫名稱相同。
2.「所有者」,點一下「。。。」按扭來選取其他用戶。
3.「使用全文索引」,全文索引可以快速且有彈性地編制索引,查詢大量非結構化文本數據時效率高於LIKE表達式。
4.「邏輯名稱」,一般採用默認的,方便管理。
5.「初始大小」,設置時可根據你的主要資料庫估計用到幾大,便設到幾大,再去設啟用「自動增長」。一般選按1M,「不限制文件增長」。
6.「路徑」,選擇存儲資料庫的位置。
7.日誌的設置按數據設置技巧相同,但要注意,日誌文件會記錄所有發生在資料庫的變動和更新,以便到硬體損壞等各種意外時,能有效地將數據還原到發生意外的時間點上,從而確保數據的一致性與完整性。顯然,要讓日誌文件能夠發揮效用,必須將數據文件與日誌文件存儲在不同的物理磁碟上這點是您在設定日誌文件的物理文件名時所必須留意的。
8.「添加」,在添加時注意選「文件類型」,當你選擇日誌,文件組就會自動選用「不適用」。還要注意,不用的日誌,存儲路徑的物理盤應設置為不同。以便還原。
9.添加次要數據文件默認會隸屬於主要文件組,如果你想新建一個文件組,在次要數據的文件組中選擇「新文件組」,輸入名稱,選中「默認值」。
如果你唔想被人修改或更新文件組內的表,你就選「只讀」。

熱點內容
晶元寫程序需要配置哪些文件 發布:2024-10-09 00:38:39 瀏覽:934
存儲儲存搬運 發布:2024-10-09 00:28:42 瀏覽:717
吃雞電腦適合什麼配置 發布:2024-10-09 00:18:24 瀏覽:228
java線程實例 發布:2024-10-09 00:05:34 瀏覽:193
文檔放在安卓手機哪裡 發布:2024-10-08 23:35:00 瀏覽:439
我的世界伺服器拔刀強化 發布:2024-10-08 22:59:37 瀏覽:430
伺服器換ip寶塔面板 發布:2024-10-08 22:58:56 瀏覽:433
如何通過伺服器搭建網站 發布:2024-10-08 22:58:54 瀏覽:240
賽爾編程 發布:2024-10-08 22:30:12 瀏覽:163
威馳車有哪些配置 發布:2024-10-08 22:19:32 瀏覽:566