当前位置:首页 » 操作系统 » 语料数据库

语料数据库

发布时间: 2022-05-10 11:29:44

❶ 能够用于tf-idf的语料库(python学习).

您好,推荐使用CRAFT语料库
CRAFT(Colorado Richly Annotated Full-Text)语料库,中文名科罗拉多丰富语料注释库。CRAFT收录了97篇可公开获取全文的生物医学期刊文献,并将这些文章在语义和句法上都作了详尽的注释以作为自然语言处理(NLP)社区的生物医学研究资源。CRAFT基于9个常用的生物医学本体,从这97篇文献中识别了所有的生物学实体,这些本体包括:细胞类型本体,小分子化合物本体(CHEBI),NCBI分类法,蛋白质本体,序列本体,Entrez Gene数据库的条目,以及基因本体(Gene Ontology)的三个子条目。CRAFT语料库已被广泛应用于对文本挖掘工具的性能测试中。当然也可以用于TF-IDF方法。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

❷ 海天瑞声的语音识别数据库和语音合成数据库有什么区别啊

人机语音交互技术,粗略说来,包含语音识别(声音转文字)和语音合成(文字转声音)两种技术。语音识别指电脑分析人的语音,将之转换为文字,从而代替键盘输入。而准确的识别,还包含了自然语言理解技术。与语音识别对应的是电脑将文字转换为语音的合成技术。语音识别数据库,就是用来训练语音识别引擎的训练语料;语音合成数据库,是用来训练语音合成引擎的训练语料。一般来说,训练语料规模越大、语料音素设计、性别年龄等因素考虑的越合理,训练效果就越好。海天瑞声最大的优势,就是多语种的语音合成和语音识别训练语料数据资源。

❸ 中国语言资源有声数据库的简介

中国拥有55个少数民族,除满族和回族已使用通用汉语外,其他民族都有自己的语言,有些民族内部的不同支系还使用着不同的语言。因此,传承和发展少数民族语言文字和文化,成为中国保护语言多样性的关键工作。中国教育部民族教育司官员沙玛加甲介绍说,中国各语言区逐步开展的双语教学,有效地保护了民族语言。
国家语委于2008年启动了“中国语言资源有声数据库建设”,按照科学、统一的规划,调查收集当代汉语方言、少数民族语言和带有地方特色的普通话的实态、有声语料,并进行科学整理、加工和有效保存,为推进中国语言信息化、推广普通话和社会文化建设服务。这是一项具有深远意义的国家重大语言文字工程。
该有声数据库将依照统一规范,采集当代中国的汉语方言和带有地方特色的普通话的有声资料,采集中国各少数民族语言及其方言的有声资料,并进行科学的整理加工,长期保存,以便将来深入研究和有效地开发利用,保护民族语言文化遗产。

❹ 什么叫语料库

网络上也有解释呀 不过估计您也看过了哈
我根据自己的理解用自己的话解释一下,希望能帮到您哈~
语料库就是把平常我们说话的时候的句子、一些文学作品的语句段落、报刊杂志上出现过的语句段落等等在现实生活中真实出现过的语言材料整理在一起,形成一个语料库,以便做科学研究的时候能够从中取材或者得到数据佐证。
例如我如果想写一篇关于“给力”这个词的普及性的文章,就可以到语料库中查询这个词出现的频率、用法等等。

❺ 语音语料怎样存入数据库

1打开企业管理器,打开要导入数据的数据库,在表上按右键,所有任务--导入数据,弹出DTS导入/导出向导,按 下一步 ,
2、选择数据源 Microsoft Excel 97-2000,文件名 选择要导入的xls文件,按 下一步 ,
3、选择目的 用于SQL Server 的Microsoft OLE DB提供程序,服务器选择本地(如果是本地数据库的话,如 VVV),使用 SQL Server身份验证,用户名sa,密码为空,数据库选择要导入数据的数据库(如 client),按 下一步 ,
4、选择 用一条查询指定要传输的数据,按 下一步 ,
5、按 查询生成器,在源表列表中,有要导入的xls文件的列,将各列加入到右边的 选中的列 列表中,这一步一定要注意,加入列的顺序一定要与数据库中字段定义的顺序相同,否则将会出错,按 下一步 ,
6、选择要对数据进行排列的顺序,在这一步中选择的列就是在查询语句中 order by 后面所跟的列,按 下一步 ,
7、如果要全部导入,则选择 全部行,按 下一步,
8、则会看到根据前面的操作生成的查询语句,确认无误后,按 下一步,
9、会看到 表/工作表/Excel命名区域 列表,在 目的 列,选择要导入数据的那个表,按 下一步,
10、选择 立即运行,按 下一步,
11、会看到整个操作的摘要,按 完成 即可。

❻ 现代汉语语料库

提供如下:
北京大学语料库http://ccl.pku.e.cn/Yuliao_Contents.Asp
北语语言信息处理研究所CCRL 汉语检索通 (可以使用)
介绍:http://lib.blcu.e.cn/qt/zy32.htm
使用http://202.112.195.6:800/
北京大学《人民日报》标注语料库:http://www.icl.pku.e.cn
北京语言大学的语料库:http://www.blcu.e.cn/kych/H.htm
清华大学的汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.e.cn/ainlp/source.htm
山西大学的语料库: http://www.sxu.e.cn/homepage/cslab/sxuc1.htm

台湾中研院的语料库:
现代汉语平衡语料库:http://www.sinica.e.tw/SinicaCorpus
或 http://www.sinica.e.tw/~tibe/2-words/modern-words/
或 http://www.sinica.e.tw/ftms-bin/kiwi.sh
近代汉语标记语料库:http://www.sinica.e.tw/Early_Mandarin/
古汉语语料库:http://www.sinica.e.tw/ftms-bin/ftmsw3
或 http://www.eastasian.ucsb.e/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi
或 http://www.sinica.e.tw/~tibe/2-words/old-words/
台湾南岛语典藏:http://www.ling.sinica.e.tw/Formosan/
闽南语典藏:http://southernmin.sinica.e.tw/
汉籍电子文献:http://www.sinica.e.tw/~tdbproj/handy1/ 查找古籍用
或 http://www.sinica.e.tw/ftms-bin/ftmsw3

香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.e.hk/livac/
或 http://www.LIVAC.org
浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm
中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php
中文语言资源联盟:http://www.chineseldc.org/xyzy.htm

The Singapore Corpus of Research in Ecation
新加坡教育研究语料库 (SCoRE)
The International Corpus of Crosslinguistic Interlanguag
国际跨语言中介语语料库 (ICCI)
The Singapore Corpus of Preschoolers' Spoken Mandarin
新加坡学前儿童华语口语语料库 (Wordlist)
A Corpus of Mandarin Textbooks in Singapore and Malaysia
新加坡、马来西亚中小学华文课本语料库 (Textbook)
An Investigation in Peer Work and Peer Talk in Singapore Primary Classrooms
新加坡小学课堂小组对话语料库 (PWPT)
A Chinese-English Parallel Corpus of Newspaper Advertisements
新加坡报章广告汉英平行语料库 (Ads)
Hongloumeng Chinese-English Parallel Corpus
红楼梦汉英平行语料库 (HLM)
A Parallel Corpus of Chinese Legal Texts
中国法律文件汉英平行语料库 (LAW)
The Babel English-Chinese Parallel Corpus
巴比伦英汉平行语料库 (BABEL)
A Parallel Corpus and Web Concordances of Five Versions of Laozi
《老子》五种版本平行检索及字词索引 (LAOZI)
A Corpus Database of Xuan Ying's Glossary of Buddhist Sutra
玄应《众经音义》平行检索数据库 (Sutra)
The Lancaster Corpus of Mandarin Chinese
兰开斯特大学汉语语料库 (LCMC)
The UCLA Corpus of Written Chinese
洛杉矶加州大学汉语书面语语料库 (UCLAWC)
A Web Concordancer for Modern Chinese Literature
中国现当代文学作品检索演示版 (Literature1)
A Web Concordancer for Modern Chinese Literature (with Chinese segmentation and POS tagging)
中国现当代文学作品检索演示版 (附词性标注) (Literature2)
绍兴学院语料库大全http://corpus.zscas.e.cn/

❼ 雅思口语语料库有用吗

想要知道自己的gpa、雅思\托福、gmat、gre等成绩能申请到国外什么大学,可以把自己的这些信息输入到留学志愿参考系统中,系统会自动从数据库中匹配出与你情况相似的同学案例,看看他们成功申请了哪些院校和专业,这样子就可以看到你目前的水平能申请到什么层次的院校和专业了,对自己进行精准的定位。 定位地址可到公*众*号【留学志愿参考系统】中获取,也可直接点击:https://www.liuxue315.cn/dingwei/?ozs=86209-2709

❽ 组建一个语料库需要哪些条件

首先你要明确,需要建立的是单语语料库还是双语语料库。1、建立单语语料库比较简单,只需要准备好相关语料(古代汉语/现代汉语/英文/其他语言),将语料导入AntConc软件进行检索即可。知乎上有大神的帖子写过具体方法:建立你自己的专属英语语料库,妈妈再也不担心你的写作啦2、建立双语语料库,你需要先准备双语对照(如中英对照)的原文和译文,进入Tmxmall在线对齐页面,将语料导入进行句级对齐,再导出为tmx格式,即为自己的双语语料库,可以用于后续的学习和研究。

❾ bncweb语料库怎么注册

1、打开网站,选择要使用的数据库,需要注册个人账号,机构选择“Other”。
2、填写姓名,职业,邮箱,可利用邮箱注册。
3、进行邮箱验证(利用网址链接)即可。

❿ 如何建立数据库或语料库

在开始-程序- MICROSOFT SQLSERVER- 企业管理器 界面下打开控制台根目录下的所有+号展开到(LOCAL)(WINDOWS NT),它下面有+数据库,+数据转换服务...等等,你在“数据库”右键点“新建数据库” 就可以了
SQL2005
》打开SQL Server Management Studio 。
》系“连接到服务器”对话框中,“服务器类型”下拉选项选择“数据库引擎”,“服务器名称”个度默认会显示上次连接的服务器,可以使用计算机名称、IP地址或是命名管道来连接。
》打开“对象资源管理器”,右击“数据库”可以新建数据库。
》点击新建数据库后,出现一个窗口,通常只要完成常规页面设置即可。
设置如下:
1.“数据库名称”要符合SQL的命名规则,唔好与现存的数据库名称相同。
2.“所有者”,点一下“。。。”按扭来选取其他用户。
3.“使用全文索引”,全文索引可以快速且有弹性地编制索引,查询大量非结构化文本数据时效率高于LIKE表达式。
4.“逻辑名称”,一般采用默认的,方便管理。
5.“初始大小”,设置时可根据你的主要数据库估计用到几大,便设到几大,再去设启用“自动增长”。一般选按1M,“不限制文件增长”。
6.“路径”,选择存储数据库的位置。
7.日志的设置按数据设置技巧相同,但要注意,日志文件会记录所有发生在数据库的变动和更新,以便到硬件损坏等各种意外时,能有效地将数据还原到发生意外的时间点上,从而确保数据的一致性与完整性。显然,要让日志文件能够发挥效用,必须将数据文件与日志文件存储在不同的物理磁盘上这点是您在设定日志文件的物理文件名时所必须留意的。
8.“添加”,在添加时注意选“文件类型”,当你选择日志,文件组就会自动选用“不适用”。还要注意,不用的日志,存储路径的物理盘应设置为不同。以便还原。
9.添加次要数据文件默认会隶属于主要文件组,如果你想新建一个文件组,在次要数据的文件组中选择“新文件组”,输入名称,选中“默认值”。
如果你唔想被人修改或更新文件组内的表,你就选“只读”。

热点内容
赛尔编程 发布:2024-10-08 22:30:12 浏览:160
威驰车有哪些配置 发布:2024-10-08 22:19:32 浏览:564
手游源码全套 发布:2024-10-08 21:39:41 浏览:474
大众账号密码是多少 发布:2024-10-08 21:22:18 浏览:890
价格厚道香港多ip服务器 发布:2024-10-08 21:22:16 浏览:283
android适配values 发布:2024-10-08 21:18:36 浏览:240
数控折弯机如何编程 发布:2024-10-08 20:34:40 浏览:60
pod内部修改配置如何生效 发布:2024-10-08 20:25:33 浏览:236
重庆服务器托管市场低价云主机 发布:2024-10-08 20:23:39 浏览:362
运维接触源码 发布:2024-10-08 19:55:44 浏览:485