算法受众
1. 信息流的那点事:3 推荐算法是如何实现的
讲完信息流流行的原因( 信息流的那点事:2 为什么信息流如此流行 ),这一篇,我们来从产品的视角,来看看推荐算法在技术上是如何实现的。
根据需要的技术和运营成本,可以将主流的推荐算法分为三类:基于内容元数据的推荐、基于用户画像的推荐、基于协同过滤算法的推荐。
基于元数据的推荐是比较基础的推荐算法,基本原理是给内容打标签,具体元数据的选取根据的内容有所不同,比较通用的角度有内容的关键词、类型、作者、来源等,打开一款头条类app,选择屏蔽一条内容,就可以看到一些该内容的元数据。
有了内容的元数据,就可以根据内容间的关联,可以进行相关内容的推荐,喜欢看奇葩说的用户,可能也会喜欢看同是米未传媒出品的饭局的诱惑。根据内容的元数据,也可以记录并逐渐明确用户的内容偏好,进行数据积累,便于结合用户的喜好进行对应的精准推荐,这也就是下面要说的基于用户画像的推荐的内容。
用户画像,类比一下就是给用户打标签,主要由三部分组成:用户的基础数据(年龄、性别等)、应用使用数据(应用使用频率、时长等)和内容偏好数据(喜好的内容分类、种类等)。
对于基础数据,不同年龄的用户的内容偏好有很大差异,年轻人可能更喜欢新歌热歌,而中年人可能更爱听怀旧一些的歌曲;根据应用使用数据,可以进行用户分层,活跃用户可以多推荐内容促进使用,快要流失用户可以推送一些打开率较高的内容来挽回,运营活动也可以更有针对性;基于内容偏好数据,可以记录并逐渐明确用户的内容偏好,从而进行更精准的推荐,从爱看娱乐新闻,到爱看国内明星,再到爱看某个小鲜肉,随着内容偏好数据的逐步积累,头条类产品的推荐也就越精确。
协同过滤算法,简单来说,就是寻找相近的用户或内容来进行推荐,主要有基于用户的协同过滤推荐和基于项目的协同过滤推荐两种。
(1)基于用户的协同过滤推荐
基于用户的协同过滤推荐算法,就是通过算法分析出与你内容偏好相近的用户,将他喜欢的内容推荐给你,这种推荐给你志同道合的人爱看的内容的思路,更相近于生活中的朋友作为同道中人的推荐。举例来说,如果你喜欢ABC,而其他用户在和你一样喜欢ABC的同时,还都喜欢D,那么就会把D推荐给你。
(2).基于内容的协同过滤推荐
基于内容的协同过滤推荐算法,就是通过算法分析出内容和内容之间的关联度,根据你喜欢的内容推荐最相关的内容,常见的看了这个内容的用户85%也喜欢xxx,就是这种思路。举例来说,如果你喜欢A,而喜欢A的用户都喜欢B,那么就会把B推荐给你。
相比于纯粹的基于内容元数据的推荐,基于内容的协同过滤推荐更能发现一些内容间深层次的联系,比如罗辑思维经常推荐各种内容,仅仅根据内容元数据来推荐,一集罗辑思维最相关的应该是另外一集,并不能推荐内容元数据相关性不太大的节目里推荐的内容;但由于可能很多用户看完后都会搜索查看节目里推荐的内容,基于内容的协同过滤推荐就会发现两者的相关性,进行推荐。
介绍推荐算法的思路时,我们一直谈到一个词“内容偏好”,这也就是实现推荐算法时一个核心的问题——需要通过怎样的数据,才能判定用户的内容偏好?主流的思路有一下三种:
让用户手动选择,显然是最简单的思路,然而由于选择的空间必然有限,只能让用户从几个大类中间挑选,无法涵盖全部内容的同时,粒度过大推荐也就很难精准。而且刚打开应用就让用户选择,或者是让用户使用一段时间后在去补充选择,这样的操作都太重可能造成用户流失。
既然手动选择很难实现,我们就需要从用户的使用数据中挖掘,主流的思路就是根据用户一些主动操作来判断,点击阅读了就说明喜欢,点了赞或者回复分享就是特别喜欢,如果跳过了内容就减少推荐,点击了不感兴趣,就不再推荐。
根据用户使用的操作来判断内容偏好,在不断地使用中积累与细化数据,对内容偏好的判断也就越来越准确,这就是头条系应用的主要策略,这样的策略对于下沉市场的不愿做出主动选择的沉默用户,是一个非常适合的策略,但这样只看点击与操作,不关注内容实际质量的策略也会造成标题党、内容低俗等问题,在后文会进一步介绍。
既然选择不能完全代表用户的内容偏好,如何使判断更加精准呢?就要从一些更加隐性的数据入手了,比如对于文章,除了点击,阅读时间,阅读完成度,是否查看文章的相关推荐内容,都是可以考虑的角度,相比纯粹的点击判断,可以一定程度上解决标题党的问题。再比如看视频,如果快进次数过多,虽然看完了,可能也不是特别感兴趣,而值得反复回看的内容,命中内容偏好的几率就相对较高。
介绍完了推荐算法的原理与数据来源,让我们来试着还原一下一条内容的完整分发流程。
首先,是内容的初始化与冷启动。可以通过算法对内容进行分析提取或者人工处理,提取内容的来源、分类、关键词等元数据,再根据用户画像计算内容兴趣匹配度,分发给有对应内容偏好的用户,,也可以通过内容原匹配度,向关系链分发,完成内容的冷启动。
然后,可以根据用户阅读时间,阅读完成度,互动数等数据,对该内容的质量进行分析,相应的增加或者减少推荐,实现内容动态分发调节。
最后,就是协同过滤算法发挥作用的时间,对于优质内容,可以通过基于用户的协同过滤推荐,推荐给与该内容受众有类似爱好的用户,也可以基于项目的协同过滤推荐,推荐给爱观看同类内容的用户,让优质内容的传播不在局限于关系链。
在真正的推荐算法实现过程中,除了基础的内容原匹配度,内容匹配度和内容质量,还有很多值得考虑的问题,比如新闻通知等时效性内容就要短时间加权,超时则不推荐;对于用户的内容偏好也不能永远维持,随着时间用户可能会喜欢新的内容,如果一定时间内用户对以前喜欢的内容不感兴趣,就要减少该种类推荐;还有为了不陷入越喜欢越推荐,最后全部是一种内容,让用户厌烦的境地,对于用户的偏好也要设定一个上限;为了保持新鲜度,需要帮助用户发现他可能喜欢的新内容.....
最后,通过数据可以了解我们如何阅读这篇文章,但任何数据都无法准确描述我们阅读后的感受与收获;再高级的算法也只是算法,它虽然可能比我们更了解我们实际的的内容偏好,但无法了解到我们对于内容的追求。
这可能也就是头条系产品虽然收获了巨大成功,但也收到了标题党、低俗化、回音室效应等指责的原因,下一篇,让我们来聊聊,信息流产品的面临的问题与可能的解决方法。
2. 算法推荐服务被戴“紧箍”,流量造假、控制热搜等有治了
算法推荐是把“双刃剑”
腾讯安全战略研究中心联合赛博研究院发布的《人工智能时代数字内容治理的机遇与挑战》报告显示,算法精准推荐已经占据信息流分发主导地位,算法能够实现数字内容聚合和精准推荐,快速匹配信息与人。基于算法的个性化内容推送在为用户提供精准化、个性化服务的同时,也带来了国家安全风险因素增高、不良信息泛滥风险增加以及传统权利保护难度加大等问题,已然成为一把“双刃剑”。
上海 财经 大学研究员崔丽丽表示,互联网平台作为消除信息不对称的先进技术代表,有责任维持技术手段的客观性,反映流量的自然状态,呈现真实的公众意见。不应该因为商业利益的驱使在流量上作假。过去曾发生过一些涉及到商业利益的新闻、信息被操控的情况,这样获取的商业利益是一种市场不公平的表现,甚至是不合法的。
提出算法“向善”新要求
根据征求意见稿,管理规定将适用于在境内应用算法推荐技术提供互联网信息服务的公司。这也意味着,以内容推荐算法为核心竞争力的短视频平台、UGC(用户生产内容)平台、推荐内容或是广告的电商和社交平台等主流互联网公司和平台的算法推荐技术都包含在此。
崔丽丽表示,不论是UGC还是PGC(专业生产内容)平台,内容的审核以及对于受众的推荐实际都有相应的规则,互联网信息平台已经在形态上取代了过去的传统媒体,因此,可能具备了一定的公共设施属性,所以信息的产生、审核和分发应该符合公允、客观以及符合事实等要求。
征求意见稿指出,算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用“向上向善”。算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。
王娟表示,征求意见稿对算法的主体价值导向、个人数据用途、行业自律等提出了算法“向善”的要求,提出了算法提供者备案责任,明确了算法推荐服务提供者作为落实算法安全的主体责任 ,还对算法推荐服务日志等信息提出了留存要求,留存期限不少于六个月,并在相关执法部门依法查询时予以提供,对回溯求证环节进行了加强。
征求意见稿明确,算法推荐服务提供者应落实算法安全主体责任,建立健全用户注册、信息发布审核、算法机制机理审核、安全评估监测、安全事件应急处置、数据安全保护和个人信息保护等管理制度,制定并公开算法推荐相关服务规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。
从用户的角度来看,算法对数据的交互模式也提出了很多要求。征求意见稿提出,算法推荐服务提供者应当以显着方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。同时,算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能,以及不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。
而对于大数据“杀熟”等顽疾,征求意见稿强调,算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。
网络热搜将被严管
近年来,网络热搜已经成为实时的舆情风向标和舆论的集散地,征求意见稿也特别对热搜作出了规范管理,明确算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。
王娟表示,征求意见稿对热搜、虚假流量可谓“重拳出击”,核心仍是围绕互联网不是法外之地,建立清朗网络空间、树立良好 社会 价值观,微博热搜榜等各类“带节奏”式资本叠加流量的运作模式将受到重大挑战。
面对外界的质疑,微博也在近日发布了热搜管理规则,并对“花钱买热搜”“花钱压热搜”等质疑回应称,热搜根据微博用户的真实行为进行计算,并根据搜索量、发博量、互动量等数据指标,形成实时榜单。榜单算法中包含了严格的排水军和反垃圾机制,以确保公正客观。同时上半年热搜还将“减少 娱乐 占比”作为主要调控目标。
3. 算法的新闻价值判断是什么意思
核心概念辨析
一、传统“新闻价值概念”梳理(基础概念)
◆ 所谓新闻价值,就是指凝聚在新闻事实中的社会需求,就是新闻本身之所以存在的客观理由,在我们比较固定的认识中,它包括时效性、重要性、显着性、接近性以及趣味性等几个基本属性。
◆ 新闻价值是新闻事实本身所包含的满足社会需求的素质的总和。新闻价值要素包括真实性、时新性等不变要素和重要性、显着性、接近性、趣味性等可变要素。新闻事实所包含的价值要素越丰富,级数越高,新闻价值就越大。
二、新闻价值的常见的几种特性
◆ 客观性
新闻的客观性要素是新闻存在的基本条件。新闻如果失真失实就不成其为新闻,也就没有新闻价值了。在新闻价值诸要素中,客观实在性是最重要的不变要素。一切新闻的产生和存在,首先要确认构成这一新闻的内容是否具有客观实在性。
◆ 新鲜性
新鲜性是新闻存在的标志,新闻如果不新鲜,也就不成其为新闻了,当然也就不存在新闻价值了。在新闻价值诸要素中,新鲜性也是重要的不变要素。一切新闻都必须新鲜,这是受众需要新闻的根本原因所在。
◆ 重要性
新闻的重要性是指事实信息内容的重要程度。事实信息内容越重要,新闻价值越大。判定某一事实信息内容重要与否的标准,主要看其政治与社会意义的大小及其对社会与公众产生的影响程度。影响程度越大,政治和社会意义越大,新闻价值也就越大。
◆ 显着性
事实信息中的人物、地点和事件中的知名度越是显着、越是突出,新闻价值也越大。一个普通群众很难成为新闻人物,而政府官员、大企业家、歌星、影星、社会名流的言行举止则往往会成新闻;一国之都、历史名城、古迹胜地也往往是出新闻的地方。新闻媒介应关注具有显着性的人物和事件,抓住其具有新意的内容及时予以报道。
◆ 趣味性
新闻的趣味性指事实信息内容对受众产生的兴趣程度。越是受众感兴趣的事实信息,新闻价值越大。趣味是新闻传播适应群众情趣需要的一种验证。趣味性还可使新闻内容的表现生动活泼、富有情趣。一些严肃的政治、经济新闻同样可以表现得妙趣横生。
三、传统新闻价值的“体系观”
◆ 新闻事实
人们之所以需要新闻,就是要通过新闻的接收和利用,来减少或消除自己对周围世界最新变动状态的不确定性。这种相关性使人们对这一新变动的认知成为必要。这是新闻价值的系统结构中最基本的客观性因素,没有它,新闻价值就无从发生。
◆ 传播者
传播者在新闻事实与受传者之间的中介作用是举足轻重的。正是由于传播者的能动性工作,使新闻事实由自在信息状态经过积极的扬弃获得了新质,转变为自为的新闻信息状态。传播者“化入”新闻作品的化入型新闻信息以其传真性、时效性,为满足人们的新闻需要提供了现实可能。
◆ 受传者
受传者根据自己的需要,通过认知结构的接收机制,对新闻作品所提供的化人型新闻信息作积极的扬弃,成为实际满足其新闻需要的“为我之物”。
综上所述,新闻价值生成的内在根据是新闻事实的价值素质、传播者对新闻的选择、受传者对新闻的接收三者的内在结构的有机对应、偶合和同一。
四、算法时代,新闻价值意义的重构(重点内容,论述题答题模板,重点识记)
李良荣教授在《新闻学概论》中提到,新闻价值就是事实本身包含的引起公众共同兴趣的素质。这些素质包括时新性、重要性、新奇性、接近性、趣味性。新闻推荐算法在一定程度上放大了个体的新闻兴趣偏好,更好地满足了个体的新闻内容需求,但弱化了新闻内容本身的地位。许多新闻内容生产者会投用户所好进行新闻内容生产,这就使新闻价值的含义发生了重构。
(一)时新性向即时性转变
新闻以往的定义是新近发生事实的变动,但由于互联网和移动终端的发展和普及,时新性已不能满足受众的要求。受众更倾向于即时性的新闻内容,即新闻事件发生的同时受众就能接受到相应的新闻内容。互联网时代加速了信息的生产,也加速了信息的传播,受众需要更及时地了解自己所处环境的信息变动。虽然即时性在时效上更好地满足了受众的信息需求,但是由于其新闻内容在新闻事件发生的同时就进行了发布,新闻具体信息极易出现误差或者错误。
(二)重要性向标签性转变
由于算法在进行新闻内容推送的时候会抓取新闻内容中的关键词等进行分析,许多新闻内容都需要带有标签,也就是关键字。即使新闻内容很重要,但如果无法被算法抓取正确的关键词作为标签,就会极易被算法推送到对该新闻内容不感兴趣的受众面前。这不仅会降低新闻内容传播的影响力,也会影响受众的新闻阅读感受。
(三)新奇性向互动性转变
在信息爆炸的时代,新闻内容仅包含新奇性,将无法有效吸引受众阅读。新闻内容更需要具有互动性,从而吸引受众点击、阅读内容最后进行分享。以今日头条为例,当算法察觉新闻内容与许多受众产生了互动,会将此新闻内
容推荐给更多的受众。具有互动性的新闻内容不仅可以更好地在受众中进行传播,更能促进受众分享,使新闻内容拥有更大的影响力。
(四)接近性向情近性转变
传统新闻价值中的接近性既包括地缘关系上的接近也包括心理上的接近。但是在算法帮助下,受众可以直接接触到其最感兴趣的内容,新闻内容的接近性便发生了向情感上接近的转变。情近性是指新闻内容能够引起受众的情感认同。虽然算法只能从受众的行为习惯、相似群体等方面发掘其兴趣,但是在一定程度上也反映出了受众对某些新闻内容的情感态度。情近性与保持新闻内容的客观性并不排斥,因为完全客观的内容是不存在的,任何新闻内容都是有立场的内容,完全客观本身即是一种态度倾向。
4. 名词解释 算法
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。