当前位置:首页 » 编程语言 » pythonictclas

pythonictclas

发布时间: 2025-01-04 01:37:03

1. 自然语言处理中语料预处理的方法

语料库清理

清洗语料库就是保留语料库中有用的数据,删除噪音数据。常见的清洗方法有:手动去重、对齐、删除、贴标签等。

以下面的文字为例。这个文本不仅包含汉字,还包含数字、英文字符、标点符号等非常规字符,这些都是无意义的信息,需要清理。

像上面这种情况,清理方法主要是通过正则表达式。可以写一个简短的Python脚本来求解,代码如下:

清洁后的结果:

除了以上需要清理的形式,噪声数据还包括文本重复、错误、遗漏、异常等。清理的方法有手工处理,或者通过开发小工具,写个小程序,都可以清理数据。

分词

清理完数据,就可以进行下一步了:文本分割。文本分割,即将文本分割成单词。常用的分词方法有基于规则和基于统计的分词方法,统计样本内容来自一些标准语料库。

比如这句话:“小明住在朝阳区”,我们期望语料库统计后的分词结果是“小明住在朝阳区”,而不是“小明住在朝阳区”。那么你是如何做到这一点的呢?

从统计学的角度来说,可以用条件概率分布来解决。对于一个新句子,通过计算各种分词方法的联合分布概率,找到最大概率对应的分词方法,就是最好的分词。

到目前为止,研究人员已经开发了许多实用的分词工具,使用起来非常简单。如果对分词没有特殊要求,可以直接使用这些分词工具。

各种分词工具的列表。

词性标注

词性标注是指在切分结果中标注每个词的正确词性,即确定每个词是名词、动词、形容词还是其他词性的过程。

词性标注有很多重要的功能。

第一,消歧。有些词在不同的上下文或用法中有不同的意思。比如“这只狗的名字叫开心”和“我今天很开心”这两句话里,“开心”就有不同的意思。我们可以通过词性标注来区分它们。

第二,强化以词为基础的特征。以上面这句话为例。如果不进行词性标注,会将两个“开心”字视为词频为2的同义词,导致后续分析出错。

此外,词性标注具有标准化、词形还原和有效去除停用词的功能。

常用的词性标注方法包括基于规则和统计的算法,如最大熵词性标注和HMM词性标注。

接下来,我们来看一个词性标注的例子。你也可以自己试试:http://ictclas.nlpir.org/nlpir/

去阻止文字。

我们在接受新闻的时候,会过滤掉无效的信息,筛选出有用的信息。对于自然语言来说,去停词是一种明智的操作。

一篇课文,无论是中文还是英文,都有连词、虚词、语气词等无意义词,如“的”、“把”、“但是”等。这些词没有特定的含义,只是用来连接句子和增强语气。这些词对文本分析也没有帮助,所以我们需要对切分后的数据做停用词处理。

但是我们应该仔细决定删除哪种停用词。

下图列出了一些常用的非索引字表。您可以根据需要选择要删除的停用字词。

词频统计

词频统计是统计分词后的文本的词频。目的是找出对文本影响最大的词,是文本挖掘的重要手段。统计这些词的出现频率,可以帮助我们理解文章所强调的内容,进而方便后续的模型构建。

例如,我们可以统计四大古典小说之一的《红楼梦》中的前28个词,结果如下:

从上图可以看出,《红楼梦》中哪个人物的篇幅最多,曹雪芹更关注哪个人物。即使我们不是红学专家,也能从统计的词频中分析出一些关键信息。

2. 怎么制作人工智能


人工智能(AI)取代阁下工作好像是明日发生就要发生的事。曾任职微软(Microsoft)和Google 的李开复说很多职位将被取代,牛津大学说10 年后近半美国职位将处于高度自动化(即人类无得捞);尽管不少人学者认为AI 消灭工作但同时创造新工种。不如简单点:看看有那些工作会因为人工智能发展而吃香。

研究构构Tech Pro 引述求职网站Indeed 数据,列出6 大待遇优渥的AI 工种,包括:机器学习(Machine Learning)工程师、数据科学家、研究科学家、科研专家、商业智能(BI)开发员、电脑视觉工程师,以上职位平均年薪逾136,000 美元)。心动吧?很明显,以上只是反映美国数据(惟香港情况应相差不远),求职者亦需要先经学术训练才能胜任AI 工作。

人工智能类工种需要的技能当然包括编程,C / C++、Java、Python 等编程语言背景是基本,因这跟机器学习有关,有自然语言处理(NLP)技术等经验更佳。还有不要忘记:数学。AI 正正涵盖高等数学及资讯科技知识,如:线性代数、矩阵、凸优化(Convex Optimization)、概率论。未掌握以上基础,逻辑能力和分析能力便无从建立,遑论以AI 研发为职业。

除了科学技术,要做成功的“AI 从业员”,最好也学习商业知识,如把机器学习模型结果转化为企业或消费者可用的系统;多参加交流会议、阅读近期科学出版物,对吸收新知识应付日益复杂的环境也很重要。

Gartner 早前发表报告预计,人工智能将消灭180 万职位,但到2020 年又会在新兴领域创造230 万个工作岗位;Capgemini 调查又指,83% 受访公司表示因打算或正采用AI 技术而需开新职位。因此,机会总是有的,但如何令它属于你,便要懂得如何装备自己。

热点内容
win10文件夹乱码 发布:2025-01-05 23:07:50 浏览:981
黑妞ftp 发布:2025-01-05 22:56:08 浏览:774
便宜的安卓手机用哪个系统好 发布:2025-01-05 22:54:37 浏览:239
联通账号密码在哪里输 发布:2025-01-05 22:49:41 浏览:657
我的世界如何开15个人的服务器 发布:2025-01-05 22:43:40 浏览:205
this访问static变量 发布:2025-01-05 22:23:11 浏览:190
路由器的首选dns服务器怎么填 发布:2025-01-05 22:02:43 浏览:423
梯度增长算法 发布:2025-01-05 21:59:05 浏览:120
搭建sstp服务器教程 发布:2025-01-05 21:56:52 浏览:707
如何删减网易我的世界服务器内存 发布:2025-01-05 21:56:43 浏览:873