新闻分类算法
⑴ 什么是算法新闻
算法新闻的基础源自于计算机领域中自然语言生成技术的发展,机器能够从结构化数据中自动生成大量文本,这一技术应用到新闻传播领域中造就了当下的算法新闻。
在“算法新闻”的概念群中也涉及到“自动化”、“数据驱动”、“机器”、“计算”等特性。算法新闻在国内外的使用与发展状况有所差异,在西方的应用源自于媒体企业与科技公司的共同合力。
算法新闻在新闻业中的运用带来了:新闻内容生产模式由“手工作坊”转向人机协同、表征现实的机制由记者中介转向算法中介、新闻叙事由线性叙事转向交互叙事、新闻价值评价由经验判断转向实证测量、新闻内容推送方式由大众化覆盖转向个体化定制等变革。
在这些转变中算法新闻的自动化生产及其个性化推荐的分发对新闻业的影响最大。由此可见,传统报业的式微及其开始过渡到数字新闻业的这些转变趋势,都使得整体新闻业处在“算法转向”的十字路口。
⑵ 奇异值分解SVD应用——LSI
奇异值分解SVD应用——LSI
在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过矩阵运算来圆满地、同时解决。为了说明如何用矩阵这个工具类解决这两个问题的,让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法。
分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法非常好。但是计算时间特别长。通常,我们要处理的文章的数量都很大,至少在百万篇以上,二次回标有非常长,比如说有五十万个词(包括人名地名产品名称等等)。如果想通过对一百万篇文章两篇两篇地成对比较,来找出所有共同主题的文章,就要比较五千亿对文章。现在的计算机一秒钟最多可以比较一千对文章,完成这一百万篇文章相关性比较就需要十五年时间。注意,要真正完成文章的分类还要反复重复上述计算。
在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD)。现在让我们来看看奇异值分解是怎么回事。首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文章,每一列对应一个词。
在上面的图中,M=1,000,000,N=500,000。第 i 行,第 j 列的元素,是字典中第 j 个词在第 i 篇文章中出现的加权词频(比如,TF/IDF)。读者可能已经注意到了,这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。
奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X,一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。
三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一列表示一类主题,其中的每个非零元素表示一个主题与一篇文章的相关性,数值越大越相关。最后一个矩阵Y中的每一列表示100个关键词,每个key word与500,000个词的相关性。中间的矩阵则表示文章主题和keyword之间的相关性。因此,我们只要对关联矩阵A进行一次奇异值分解,w 我们就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。
比如降至2维(rank=2),则document-term的关系可以在下面二维图中展现:
在图上,每一个红色的点,都表示一个词,每一个蓝色的点,都表示一篇文档,这样我们可以对这些词和文档进行聚类,比如说stock 和 market可以放在一类,因为他们老是出现在一起,real和estate可以放在一类,dads,guide这种词就看起来有点孤立了,我们就不对他们进行合并了。按这样聚类出现的效果,可以提取文档集合中的近义词,这样当用户检索文档的时候,是用语义级别(近义词集合)去检索了,而不是之前的词的级别。这样一减少我们的检索、存储量,因为这样压缩的文档集合和PCA是异曲同工的,二可以提高我们的用户体验,用户输入一个词,我们可以在这个词的近义词的集合中去找,这是传统的索引无法做到的。
现在剩下的唯一问题,就是如何用计算机进行奇异值分解。这时,线性代数中的许多概念,比如矩阵的特征值等等,以及数值分析的各种算法就统统用上了。在很长时间内,奇异值分解都无法并行处理。(虽然 Google 早就有了MapRece 等并行计算的工具,但是由于奇异值分解很难拆成不相关子运算,即使在 Google 内部以前也无法利用并行计算的优势来分解矩阵。)最近,Google 中国的张智威博士和几个中国的工程师及实习生已经实现了奇异值分解的并行算法,我认为这是 Google 中国对世界的一个贡献。
最后说说个人拙见,这里我们可以把document和term(word)中间加上一层latent semantics项,那么上图中的X和Y矩阵就可以分别表示同一个latent semantics对不同document之间的相关性和同一latent semantics在不同terms之间的相关性联系。X和Y的大小分别是m*r与r*n,r为A矩阵的rank(秩),最后,B是A的r个奇异值组成的对角方阵(r*r),在谱分解中也就是A的r个特征值。
⑶ 什么是算法新闻
算法新闻又称作机器人新闻﹑自动化新闻、计算新闻,是通过计算机算法工具,进行自动新闻生产﹑推送并实现商业化运营的系统,具体包括算法新闻写作、编辑、算法推荐机制和平台聚合分发机制及营销等业务的自动化新闻生产流程。
算法新闻是运用智能算法工具自动生产新闻并实现商业化运营的过程、方法或系统,它包括信息采集、储存、写作、编辑、展示、数据分析及营销等业务的自动化实现。广义的它指包括生产和分发的中运用算法:在生产环节运用算法工具自动生成新闻内容,在分发环节引入推荐算法,在销售环节实现了传者、受众和消费者的聚合,造就了流程更清晰、作业更高效、销售更精准、目标更明确、成本更低廉的业务链条。
传统的新闻分发像超市,媒体根据受众市场准备若干新闻供受众选用。由于媒体难以同时满足所有受众的信息需求,媒体和受众之间呈一次性消费关系媒体和用户的粘黏度不高。而算法推送能够持续不断地为目标用户推送其感兴趣和需要的信息,由于能够敏锐捕捉服务对象细微的信息需求变化,媒体推送内容也随之调整使信息服务转变为追踪式全程服务,极大地增加了媒体和用户的粘黏度。
第三,依赖大数据资源提高新闻报道的预测性。
基于大数据的算法拥有模拟数据时代无可比拟的预测功能,它通过全样本的相关性分析在不知晓因果性的情况下就可以做出精准的预测和有力的推论。大数据“这个系统依赖的是相互关系而不是因果关系。它告诉你的是会发生什么而不是为什么发生。”相比于传统新闻小数据时代,大数据更强调用户数据的完整性和混杂性这种数据不仅能帮助我们接近事实真相而且能准确地推测受众所喜欢的新闻。
传统新闻生产具有一定的滞后性,新闻事件发生后媒体才启动新闻生产程序,新闻作品发表后往往已经变成街头巷尾议论的旧闻,加之自媒体时代人人是记者,传统媒体生产新闻流程的劣势被放大以至于第一时间缺席很多重要的新闻事件报道。大数据预测使新闻报道不再建立于人的经验判断上,媒体通过大数据预先掌握感兴趣受众群分布及其价值取向。继而展开选题策划及采写,极大地提高新闻报道的针对性和有效性。以范某某逃税案为例根据既往经验媒体很容易认为受众对逃税案的态度应该是反对逃税并要求严惩然而大数据显示;公众的意见是分裂的部分公众已经了解到《刑法》相关条款做过修改,首次逃税被查只要补缴税款将免于刑事处分。媒体基于公众关于逃税处分意见分裂的现状策划和组织该案报道,比单一视角和判断标准的报道更容易获得成功。
算法新闻的意义
算法新闻的出现展示出了新闻生产颠覆性的模式改变,对未来新闻传播领域的发展意义深远,从新闻生产的角度看,算法的介入在一定程度上替代了传统新闻传播业部分信息采集环节,高效处理大量的信息内容,降低了劳动成本,提高了生产力。
从新闻分发的角度看,算法通过对于用广户信息的智能收集和归类,能够更为精确地进行内容推送,为用户“量身定制”个性化信息成为常态从新闻覆盖角度看,借用麦克卢汉“媒介是人的延伸”的观点,算法作为一种人的新“延伸”,介入到信息产销的整个环节中,通过计算机程序在海量的信息中完成话题抓取,突破并且延伸了人类所能触及的视野,带来了更大范围和更多维度的报道。
算法在整个新闻生产中粉演着信息枢纽的角色,将海量信息和用户紧密地链接在一起,新闻内容生产环节和分发环节的边界逐渐消融,形成了高效同步的闭环,搭建出智能化的新闻生产模式。
算法新闻对新闻传播业的影响
1、对传统新闻生产及运营模式的替代
算法新闻在生产效率、准确性和盈利能力上有显着优势,且能够极大降低成本,可以替代或补充新闻生产及运营的某些环节,如报道、撰写、编辑和发布文章等,它具有人们无法想象的高效率,能迅速处理大容量信息、自动完成定制文章撰写、实现精准推荐等能力。但在一些数据积累偏少或需高度创造性写作的领域,算法新闻尚无法实现。
2、对记者职业的替代
对于算法新闻是否会替代记者职业,目前有两种不同取向。
第一种是可替代论,认为记者职业是可被替代的,传统媒体运营面临成本高昂的困境,它们期待通过算法新闻降低劳动力成本,机器记者具有无酬(或低酬)劳动的优势,记者失业将不可避免。
第二种是折中论或互补论,机写新闻与人写新闻各有所长,机器记者的优势在于精准性、客观性、简洁性和迅捷性,人类记者的优势在于分析技巧、个性、创造力,以及撰写复杂句子与精品新闻的技能。当日常工作可以自动化时,记者将有更多时间进行深度报道,进而实现人机协作或和谐共生。至于记者所依托的传统媒体的发展趋势,有研究认为,未来媒体的生态场景是混合的、多面的,只要报纸积极参与变革,将算法新闻策略融入传统媒体发展战略,这类媒体还会持久存在。
3、传统新闻的价值理念、理论规范和法律法规带来新的挑战
算法新闻排除了人为情感、价值判断等主观因素干预,这是否意味着机器新闻“更真实”?算法新闻着眼于满足受众信息需求,那么,如何凸显媒体的社会责任及舆论引导功能?在算法新闻时代,由机器操控新闻的生产与运营,如何保障新闻自由?此外,如何确保算法新闻的透明度?随着机器新闻写作质量的不断提升,机写新闻与人写新闻的差异正在缩小,但一些媒体机构可能利用这种技术进展,混淆两者的界限,使用机器人冒充人类记者,进而欺骗读者。
参考文献
1.0 1.1 1.2 张帜. 智媒时代对新闻生产中算法新闻伦理的思考.海南大学学报(人文社会科学版),2019:75-83.
2.0 2.1 2.2 算法新闻、自动化新闻、机器人新闻、数据驱动新闻……它们究竟是什么?.搜狐网.2019.7.31
陆新蕾. 算法新闻:技术变革下的问题与挑战. 社会科学文摘, 2019(5):3.
⑷ 贝叶斯算法原理
贝叶斯算法是一种基于概率统计学的机器学习算法,其原理主要是利用贝叶斯定理进行分类。贝叶斯算法已经被广泛应用于文本分类、垃圾邮件过滤、新闻推荐和医疗诊断等领域。
贝叶斯算法的核心思想是基于贝叶斯定理:后验概率=先验概率×似然度/证据因子。在分类问题中,我们需要根据已知的特征值来预测一个样本所属于某个类别的概率。
总的来说,贝叶斯算法是一种基于统计学的机器学习算法,其原理是利用贝叶斯定理进行分类。虽然该算法在文本分类、垃圾邮件过滤、新闻推荐和医疗诊断等领域得到了广泛应用,但也需要针对具体情况进行合理地特征选择,并注意特征之间的关联关系,才能确保其在实际应用中具有较好的表现。