提取关键词的算法

发布时间: 2024-09-26 20:58:59

❶ TF-IDF 算法

有一篇很长的文章，用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？

"智能问答"、"企业"、"问答库"这三个词的出现次数一样多。这是不是意味着，作为关键词，它们的重要性是一样的？

“企业”是很常见的词，相对而言“智能问答”和“问答库”不那么常见。如果这三个词在一篇文章的出现次数一样多，我们有理由可以认为，“智能问答”和“问答库”的重要程度要大于“企业”，也就是说，在关键词排序方面，“智能问答“和”问答库“应该排在”企业“前面。

需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。

这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

需要一个语料库（corpus），用来模拟语言的使用环境。
逆文档频率（IDF)= log(语料库的文档总数/包含该词的文档数+1)
如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

TF-IDF=词频（TF）*逆文档频率（IDF）

TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"中国"、"蜜蜂"、"养殖"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

希望找到与原文章相似的其他文章，为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。

句子A：我喜欢吃苹果，不喜欢吃香蕉
句子B：我不喜欢吃苹果，也不喜欢吃香蕉
请问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

问题就变成了如何计算这两个向量的相似程度。
我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。
以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：

coso=a_2+b_2-c_2/2ab
假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：

coso=x_1x_2+y_1+y_2/sqrt()
余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。所以，上面的句子A和句子B是很相似的，事实上它们的夹角大约为20.3度。

由此，我们就得到了"找出相似文章"的一种算法：

如果能从3000字的文章，提炼出150字的摘要，就可以为读者节省大量阅读时间。由人完成的摘要叫"人工摘要"，由机器完成的就叫"自动摘要"。

文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。"自动摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"关键词"来衡量。如果包含的关键词越多，就说明这个句子越重要。Luhn提出用"簇"（cluster）表示关键词的聚集。所谓"簇"就是包含多个关键词的句子片段。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：850

制作脚本网站发布：2025-10-20 08:17:34 浏览：1114

python中的init方法发布：2025-10-20 08:17:33 浏览：820

图案密码什么意思发布：2025-10-20 08:16:56 浏览：987

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：875

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1224

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：446

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：329

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1005

python股票数据获取发布：2025-10-20 07:39:44 浏览：973

提取关键词的算法

与提取关键词的算法相关的资讯