算法和人性
‘壹’ 网络算法都应该遵循的原则有哪些
随着互联网的不断发展,现在在网络上发言和造谣的成本也越来越低,而由于算法的存在,这些内容反而更容易得到传播和被阅读的机会,下面昌平北大青鸟就一起来了解一下,网络算法都应该遵循的原则有哪些。
1)真相和准确性
“造谣一张嘴,辟谣跑断腿。”“我们是兼职在辟谣,别人是全职在传播伪科学。”现在大家终于知道了谎言比真相更容易传播。但资讯推荐算法更关心“相关性”而非信息本身是不是真相。怎么办?让编辑负责辨别真相,编辑们可以区分出虚构的内容和事实,把他们的意见添加到推荐算法中。让经过专业训练的新闻从业者来决定什么是质量,什么是真相,什么是准确性。让他们来监控和改进算法,防止算法被滥用。
2)独立性
让编辑来确保推荐算法是为读者服务的,而不是为商业模式,为广告主服务。现在的推荐算法让那些骗点击的标题党(clickt)内容和广告凸显出来,正常的内容反而被打压,这是现在网络新闻最严重的问题——内容的权重,并不是根据内容是否对读者有益来判断的,而是为商业模型服务的,让人们花更多时间沉浸在垃圾内容中,对这些公司的商业模型更有益。
3)公平和公正性
分歧和极端内容更受算法的青睐,也更容易引发读者的对立。新闻从业者常说,在每个新闻事件至少有两面,记者们的工作是发现和听取多样化的声音。当编辑和工程师合作来调整算法,呈现多角度不同的观点,才能加深我们对世界的理解和同情心。如果我们不理解为什么会有不同的意见,就不会真正团结。
4)人性
新闻事实必须被认真调查,有理有据,才能保证媒介是用来曝光或庆祝真相的,不是用来伪造事实伤害他人。这是职业操守,也是人性。算法不会对谎言泛滥负责任,但记者和编辑是需要对此负责的。所以编辑和工程师可以合作,一起设计算法,严格限制有害的内容被观看,及时调整推荐给平台上用户的内容。
5)问责制
没有什么系统是完美的。当错误出现,比如假新闻被炒作或者恶俗内容被推送给用户,平台方应该迅速纠正错误和调整算法。对于一家新闻机构而言,出现错误时一定会做立即做公开的勘误和道歉,以保证机构的声誉和读者的信任。但是,算法和平台方却从来不会负同样的责任。
‘贰’ 关于算法
阿朱对于算法的了解不多,总结如下,希望多多交流,改正瑕疵。
算法推荐主要有5种方式:
基于内容推荐:这是基于用户个人兴趣的推荐。根据用户个体的历史行为,计算对内容特征的偏好程度,进而推荐出与用户特征偏好匹配的内容。
协同过滤算法:这是基于群体的推荐。基于用户的相似度、内容的共现度,以及基于人口特征将用户聚集为不同群体来推荐。(解释一下:常见的协同过滤算法有两种,一种是基于用户的(user-based),也即计算用户之间的相似性,如果A和B的兴趣相近,那么A喜欢的电影,B也很有可能喜欢。另一种是基于物品的(item-based),也即计算物品之间的相似性,如果电影C和电影D很相似,那么喜欢电影C的人,可能也会喜欢电影D。)
扩展推荐:基于用户兴趣点、内容类别等扩展。(你喜欢历史资讯,我推考古、寻宝的资讯给你)
新热推荐:基于全局内容的时效性、热度推荐。(在产品初期同时缺乏用户数据和内容数据时,内容分发效率很低。使用基于内容推荐算法效果不显着,而使用一些热点话题可在保证一定流量的同时,不断通过用户的个人行为(点赞、评论、浏览、收藏)来逐步精确用户画像和进行内容沉淀,为之后的个性化推荐做准备)。
环境特征:基于地域、时间、场景等推荐。(知乎上你们市的牙科诊所广告、婚庆广告)
每种算法的效果不一,组合味道更佳,因此很多公司都是采用“算法矩阵”的方式来推荐feed。(后文也会谈到这一点)
优势:
内容质量审核、社区治理(辱骂、撕逼),推荐商品,减少人工运营成本。
源源不断推荐给你感兴趣的feed,提升了用户粘性,商业化的潜力进一步加大。
让用户 kill time 的需求更好地被满足,增强用户体验
弊端:
1.算法本身或者算法背后的人产生技术错误——只要是人写的算法,就一定有出错的概率,比如德国居民凌晨发飙的智能音箱、失控的Uber自动驾驶汽车就是程序上的Bug导致的,这一类我们克服的办法其实相对简单。但对于另一种人为算计消费者的算法有时候可能我们就无能为力了,比如大数据杀熟现象,无论真实与否,这类问题往往很难识别,因此也加大了监管的难度;(抖音视频里你见不到“钱”字,只能看到“Q”来代替)
2.算法对于人性部分的忽略——现在的人工智能离真正理解人类的感情和行为依然有巨大的鸿沟,Facebook提醒你给去世的亲人发生日祝福背后本质的原因在于AI无法真正理解死亡对于人类意味着什么;因此需要人机结合(平台人工参与,用户举报等自治措施),不能单独依靠算法。
3.算法训练数据本身的偏见——目前人工智能的基本逻辑是先构建一个合适的机器学习模型,然后用大量的数据去训练模型,然后用训练好的模型再来预测新的数据,这里边有一个非常重要前提就是输入数据的重要性,比如变坏的微软机器人Tay之所以产生问题就是因为输入的数据中本身就存在偏见,如果现实世界数据本身就存在偏见,那么预测结果也一定会有偏见;
先下结论吧:算法不会导致“信息茧房”
“社交媒体和算法推荐导致信息茧房”这一判断成立的一个重要前提是:我们只会点击那些我们熟悉的、赞同的内容,不断让机器加深对我们的印象:原来他们只喜欢看这些!
但在现实中,这个前提是过于简化的,乃至是错误的。
在个体层面,我们有着多样的阅读动机,受到各种认知偏见的影响,可能倾向于点击某些特定类型的内容,但绝不仅仅局限于自己认同的那些。
在社交层面:我们在大多数APP上都存在着社交关系,以及主动选择关注的帐号,这些都对我们能接触到的内容产生重要影响。一个在APP上拥有一定社交关系的人,不太可能陷入狭窄的视野当中。
在技术层面:在算法的分类里说了,每种算法都有其利弊,因此很多公司都是采用“算法矩阵”的方式来推荐feed。但在普罗大众眼里,算法=基于内容的推荐算法,而忽略了“基于内容的推荐算法”只是算法种类里的一种,其他类型算法也会被产品使用。
在企业层面:没有一个商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。用户兴趣窄化对于商业化目标并不是一个好的选择。
博弈:
推荐太强了,关注力量就会弱。抖音沉浸式交互和基于内容的算法推荐是 kill time 的利器,推荐feed刷的过瘾了,你还会去刷关注feed吗?
共生:
算法有弊端,关注可以弥补或有所增益。推荐feed是忽略了人"社交性“这个特点,以知乎为例,关注的内容生产者传递给我们价值,所以我们需要一个途径来知道那几十个或上百的关注对象的产出内容。朋友圈满足我们窥探的信息需求,也同理。(另外从结果反推过程,大家看一下手里的B站、知乎、抖音、快手就清楚了)