演算法和人性
『壹』 網路演算法都應該遵循的原則有哪些
隨著互聯網的不斷發展,現在在網路上發言和造謠的成本也越來越低,而由於演算法的存在,這些內容反而更容易得到傳播和被閱讀的機會,下面昌平北大青鳥就一起來了解一下,網路演算法都應該遵循的原則有哪些。
1)真相和准確性
「造謠一張嘴,辟謠跑斷腿。」「我們是兼職在辟謠,別人是全職在傳播偽科學。」現在大家終於知道了謊言比真相更容易傳播。但資訊推薦演算法更關心「相關性」而非信息本身是不是真相。怎麼辦?讓編輯負責辨別真相,編輯們可以區分出虛構的內容和事實,把他們的意見添加到推薦演算法中。讓經過專業訓練的新聞從業者來決定什麼是質量,什麼是真相,什麼是准確性。讓他們來監控和改進演算法,防止演算法被濫用。
2)獨立性
讓編輯來確保推薦演算法是為讀者服務的,而不是為商業模式,為廣告主服務。現在的推薦演算法讓那些騙點擊的標題黨(clickt)內容和廣告凸顯出來,正常的內容反而被打壓,這是現在網路新聞最嚴重的問題——內容的權重,並不是根據內容是否對讀者有益來判斷的,而是為商業模型服務的,讓人們花更多時間沉浸在垃圾內容中,對這些公司的商業模型更有益。
3)公平和公正性
分歧和極端內容更受演算法的青睞,也更容易引發讀者的對立。新聞從業者常說,在每個新聞事件至少有兩面,記者們的工作是發現和聽取多樣化的聲音。當編輯和工程師合作來調整演算法,呈現多角度不同的觀點,才能加深我們對世界的理解和同情心。如果我們不理解為什麼會有不同的意見,就不會真正團結。
4)人性
新聞事實必須被認真調查,有理有據,才能保證媒介是用來曝光或慶祝真相的,不是用來偽造事實傷害他人。這是職業操守,也是人性。演算法不會對謊言泛濫負責任,但記者和編輯是需要對此負責的。所以編輯和工程師可以合作,一起設計演算法,嚴格限制有害的內容被觀看,及時調整推薦給平台上用戶的內容。
5)問責制
沒有什麼系統是完美的。當錯誤出現,比如假新聞被炒作或者惡俗內容被推送給用戶,平台方應該迅速糾正錯誤和調整演算法。對於一家新聞機構而言,出現錯誤時一定會做立即做公開的勘誤和道歉,以保證機構的聲譽和讀者的信任。但是,演算法和平台方卻從來不會負同樣的責任。
『貳』 關於演算法
阿朱對於演算法的了解不多,總結如下,希望多多交流,改正瑕疵。
演算法推薦主要有5種方式:
基於內容推薦:這是基於用戶個人興趣的推薦。根據用戶個體的歷史行為,計算對內容特徵的偏好程度,進而推薦出與用戶特徵偏好匹配的內容。
協同過濾演算法:這是基於群體的推薦。基於用戶的相似度、內容的共現度,以及基於人口特徵將用戶聚集為不同群體來推薦。(解釋一下:常見的協同過濾演算法有兩種,一種是基於用戶的(user-based),也即計算用戶之間的相似性,如果A和B的興趣相近,那麼A喜歡的電影,B也很有可能喜歡。另一種是基於物品的(item-based),也即計算物品之間的相似性,如果電影C和電影D很相似,那麼喜歡電影C的人,可能也會喜歡電影D。)
擴展推薦:基於用戶興趣點、內容類別等擴展。(你喜歡歷史資訊,我推考古、尋寶的資訊給你)
新熱推薦:基於全局內容的時效性、熱度推薦。(在產品初期同時缺乏用戶數據和內容數據時,內容分發效率很低。使用基於內容推薦演算法效果不顯著,而使用一些熱點話題可在保證一定流量的同時,不斷通過用戶的個人行為(點贊、評論、瀏覽、收藏)來逐步精確用戶畫像和進行內容沉澱,為之後的個性化推薦做准備)。
環境特徵:基於地域、時間、場景等推薦。(知乎上你們市的牙科診所廣告、婚慶廣告)
每種演算法的效果不一,組合味道更佳,因此很多公司都是採用「演算法矩陣」的方式來推薦feed。(後文也會談到這一點)
優勢:
內容質量審核、社區治理(辱罵、撕逼),推薦商品,減少人工運營成本。
源源不斷推薦給你感興趣的feed,提升了用戶粘性,商業化的潛力進一步加大。
讓用戶 kill time 的需求更好地被滿足,增強用戶體驗
弊端:
1.演算法本身或者演算法背後的人產生技術錯誤——只要是人寫的演算法,就一定有出錯的概率,比如德國居民凌晨發飆的智能音箱、失控的Uber自動駕駛汽車就是程序上的Bug導致的,這一類我們克服的辦法其實相對簡單。但對於另一種人為算計消費者的演算法有時候可能我們就無能為力了,比如大數據殺熟現象,無論真實與否,這類問題往往很難識別,因此也加大了監管的難度;(抖音視頻里你見不到「錢」字,只能看到「Q」來代替)
2.演算法對於人性部分的忽略——現在的人工智慧離真正理解人類的感情和行為依然有巨大的鴻溝,Facebook提醒你給去世的親人發生日祝福背後本質的原因在於AI無法真正理解死亡對於人類意味著什麼;因此需要人機結合(平台人工參與,用戶舉報等自治措施),不能單獨依靠演算法。
3.演算法訓練數據本身的偏見——目前人工智慧的基本邏輯是先構建一個合適的機器學習模型,然後用大量的數據去訓練模型,然後用訓練好的模型再來預測新的數據,這里邊有一個非常重要前提就是輸入數據的重要性,比如變壞的微軟機器人Tay之所以產生問題就是因為輸入的數據中本身就存在偏見,如果現實世界數據本身就存在偏見,那麼預測結果也一定會有偏見;
先下結論吧:演算法不會導致「信息繭房」
「社交媒體和演算法推薦導致信息繭房」這一判斷成立的一個重要前提是:我們只會點擊那些我們熟悉的、贊同的內容,不斷讓機器加深對我們的印象:原來他們只喜歡看這些!
但在現實中,這個前提是過於簡化的,乃至是錯誤的。
在個體層面,我們有著多樣的閱讀動機,受到各種認知偏見的影響,可能傾向於點擊某些特定類型的內容,但絕不僅僅局限於自己認同的那些。
在社交層面:我們在大多數APP上都存在著社交關系,以及主動選擇關注的帳號,這些都對我們能接觸到的內容產生重要影響。一個在APP上擁有一定社交關系的人,不太可能陷入狹窄的視野當中。
在技術層面:在演算法的分類里說了,每種演算法都有其利弊,因此很多公司都是採用「演算法矩陣」的方式來推薦feed。但在普羅大眾眼裡,演算法=基於內容的推薦演算法,而忽略了「基於內容的推薦演算法」只是演算法種類里的一種,其他類型演算法也會被產品使用。
在企業層面:沒有一個商場的經理,希望顧客每一次來到商場都只關注同一類別的商品。用戶興趣窄化對於商業化目標並不是一個好的選擇。
博弈:
推薦太強了,關注力量就會弱。抖音沉浸式交互和基於內容的演算法推薦是 kill time 的利器,推薦feed刷的過癮了,你還會去刷關注feed嗎?
共生:
演算法有弊端,關注可以彌補或有所增益。推薦feed是忽略了人"社交性「這個特點,以知乎為例,關注的內容生產者傳遞給我們價值,所以我們需要一個途徑來知道那幾十個或上百的關注對象的產出內容。朋友圈滿足我們窺探的信息需求,也同理。(另外從結果反推過程,大家看一下手裡的B站、知乎、抖音、快手就清楚了)