信息流推荐算法
⑴ 算法推荐服务被戴“紧箍”,流量造假、控制热搜等有治了
算法推荐是把“双刃剑”
腾讯安全战略研究中心联合赛博研究院发布的《人工智能时代数字内容治理的机遇与挑战》报告显示,算法精准推荐已经占据信息流分发主导地位,算法能够实现数字内容聚合和精准推荐,快速匹配信息与人。基于算法的个性化内容推送在为用户提供精准化、个性化服务的同时,也带来了国家安全风险因素增高、不良信息泛滥风险增加以及传统权利保护难度加大等问题,已然成为一把“双刃剑”。
上海 财经 大学研究员崔丽丽表示,互联网平台作为消除信息不对称的先进技术代表,有责任维持技术手段的客观性,反映流量的自然状态,呈现真实的公众意见。不应该因为商业利益的驱使在流量上作假。过去曾发生过一些涉及到商业利益的新闻、信息被操控的情况,这样获取的商业利益是一种市场不公平的表现,甚至是不合法的。
提出算法“向善”新要求
根据征求意见稿,管理规定将适用于在境内应用算法推荐技术提供互联网信息服务的公司。这也意味着,以内容推荐算法为核心竞争力的短视频平台、UGC(用户生产内容)平台、推荐内容或是广告的电商和社交平台等主流互联网公司和平台的算法推荐技术都包含在此。
崔丽丽表示,不论是UGC还是PGC(专业生产内容)平台,内容的审核以及对于受众的推荐实际都有相应的规则,互联网信息平台已经在形态上取代了过去的传统媒体,因此,可能具备了一定的公共设施属性,所以信息的产生、审核和分发应该符合公允、客观以及符合事实等要求。
征求意见稿指出,算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用“向上向善”。算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。
王娟表示,征求意见稿对算法的主体价值导向、个人数据用途、行业自律等提出了算法“向善”的要求,提出了算法提供者备案责任,明确了算法推荐服务提供者作为落实算法安全的主体责任 ,还对算法推荐服务日志等信息提出了留存要求,留存期限不少于六个月,并在相关执法部门依法查询时予以提供,对回溯求证环节进行了加强。
征求意见稿明确,算法推荐服务提供者应落实算法安全主体责任,建立健全用户注册、信息发布审核、算法机制机理审核、安全评估监测、安全事件应急处置、数据安全保护和个人信息保护等管理制度,制定并公开算法推荐相关服务规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。
从用户的角度来看,算法对数据的交互模式也提出了很多要求。征求意见稿提出,算法推荐服务提供者应当以显着方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。同时,算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能,以及不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。
而对于大数据“杀熟”等顽疾,征求意见稿强调,算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。
网络热搜将被严管
近年来,网络热搜已经成为实时的舆情风向标和舆论的集散地,征求意见稿也特别对热搜作出了规范管理,明确算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。
王娟表示,征求意见稿对热搜、虚假流量可谓“重拳出击”,核心仍是围绕互联网不是法外之地,建立清朗网络空间、树立良好 社会 价值观,微博热搜榜等各类“带节奏”式资本叠加流量的运作模式将受到重大挑战。
面对外界的质疑,微博也在近日发布了热搜管理规则,并对“花钱买热搜”“花钱压热搜”等质疑回应称,热搜根据微博用户的真实行为进行计算,并根据搜索量、发博量、互动量等数据指标,形成实时榜单。榜单算法中包含了严格的排水军和反垃圾机制,以确保公正客观。同时上半年热搜还将“减少 娱乐 占比”作为主要调控目标。
⑵ 猜你喜欢是如何猜的——常见推荐算法介绍
自从头条系的产品今日头条和抖音火了之后,个性化推荐就进入了大众的视野,如果我们说搜索时人找信息的话,那么推荐就是信息找人。搜索是通过用户主动输入索引信息告诉机器自己想要的东西,那么推荐的这个索引是什么才能让信息找到人呢?
第一类索引是“你的历史”,即基于你以前在平台上对某物品产生的行为(点赞,转发,评论或者收藏),寻找与你产生过相似行为的用户所喜欢的其他物品或者与你喜欢的物品相似的其他物品来为你推荐。这一基于用户行为相似的算法有:协同过滤算法、基于内容的推荐算法和基于标签的推荐算法。
基于用户的协同过滤算法是寻找与A用户有相似行为的所有B用户所喜欢的而A用户还不知道的物品推荐给A用户 。该算法包括两个步骤:
-根据用户所喜欢的物品计算用户间相似度,找到与目标用户相似的用户集合;
-找到该用户集合所喜欢的而目标用户所不知道的物品。
那么,找出一批物品以后哪个先推荐哪个后推荐?用户间相似程度大的先推荐,用户对物品的感兴趣程度大要先推荐。即假设A用户与B用户的相似程度为0.9,与C用户的相似程度为0.7,用户B喜欢物品a和物品b的程度分别为1和2,用户C喜欢物品a和物品b的程度分别为0.1和0.5,那么先推荐物品b。多个用户多个物品,只要拟定了用户间的相似度和用户对物品的感兴趣程度,即可对物品进行打分并且进行综合排序。
基于物品的协同过滤算法是根据用户行为而不是物品本身的相似度来判断物品的相似度 ,即如果物品A和物品B被很多的用户同时喜欢,那么我们就认为物品A和物品B是相似的。该算法也是包括两个步骤:
-根据用户行为计算物品间的相似度;
-根据物品的相似度和用户的历史行为给用户生成推荐列表。
与UserCF相似的是,同样会遇到推荐的先后顺序问题,那么ItemCF所遵循的原则是:物品间相似程度大的先推荐,用户对物品的感兴趣程度大要先推荐。假设用户对物品a和物品b感兴趣的程度分别为1和0.5,物品a与物品c和物品d的相似度分别为0.5和0.1,物品b与物品c和物品d的相似度分别为0.3和0.4,那么先推荐物品d。用户喜欢多个物品,并且多个物品与其他物品都有相似的情况下,只要拟定了用物品间的相似度和用户对物品的感兴趣程度,即可对物品进行打分并且进行综合排序。
协同过滤算法的核心都是通过用户行为来计算相似度,User-CF是通过用户行为来计算用户间的相似度,Item-CF是通过用户行为来计算物品间的相似度。
推荐算法很重要的一个原理是为用户推荐与用户喜欢的物品相似的用户又不知道的物品。物品的协同过滤算法是通过用户行为来衡量物品间的相似(喜欢物品A的用户中,同时喜欢物品B的用户比例越高,物品A与物品B的相似程度越高),而基于内容的推荐算法衡量则是通过物品本身的内容相似度来衡量物品间的相似。
假如,你看了东野圭吾的《解忧杂货店》,那么下次系统会给你推荐东野圭吾的《白夜行》。假设你看了小李子的《泰坦尼克号》,系统再给你推荐小李子的《荒野猎人》。
该算法与前两种不同的是,将用户和物品之间使用“标签”进行联系,让用户对喜欢的物品做记号(标签),将同样具有这些记号(标签)的其他物品认为很大程度是相似的并推荐给用户。其基本步骤如下:
统计用户最常用的标签
对于每个标签,统计最常被打过这个标签次数最多的物品
将具有这些标签最热门的物品推荐给该用户
目前,国内APP中,豆瓣就是使用基于标签的推荐算法做个性化的推荐。
第二类索引是“你的朋友”,基于你的社交好友来进行推荐,即基于社交网络的推荐。例如,微信看一看中的功能“朋友在看”就是最简单的基于社交网络的推荐,只要用户点击公众号文章的“在看”,就会出现在其好友的“朋友在看”的列表中。
复杂一点的算法会考虑用户之间的熟悉程度和兴趣的相似度来进行推荐。目前,在信息流推荐领域,基于社交网络进行推荐的最流行的算法是Facebook的EdgeRank算法,即为用户推荐其好友最近产生过重要行为(评论点赞转发收藏)的信息。
第三类索引是“你所处的环境”,基于你所处的时间、地点等上下文信息进行推荐。例如,我们看到很APP中的“最近最热门”,就是基于时间上下文的非个性化推荐;以及,美团和饿了么这些基于位置提供服务的APP中,“附近商家”这一功能就是基于用户位置进行推荐。高德地图在为用户推荐驾驶路线时,会考虑不同路线的拥堵程度、红绿灯数量等计算路线用和路程距离再进行综合排序推荐。
很多时候,基于时间上下文的推荐会协同过滤这类个性化推荐算法结合使用。例如,在使用协同过滤推荐策略的时候,会将时间作为其中一个因素考虑进入推荐策略中,最近的信息先推荐。
以上就是常见的推荐算法。作为产品人,我们不需要知道如何实现,但是我们必须知道这些推荐算法的原理,知道在什么场景下如何去做推荐才能提升推荐的效率,这才是产品经理的价值所在。
参考资料:《推荐算法实战》项亮