新聞分類演算法
⑴ 什麼是演算法新聞
演算法新聞的基礎源自於計算機領域中自然語言生成技術的發展,機器能夠從結構化數據中自動生成大量文本,這一技術應用到新聞傳播領域中造就了當下的演算法新聞。
在「演算法新聞」的概念群中也涉及到「自動化」、「數據驅動」、「機器」、「計算」等特性。演算法新聞在國內外的使用與發展狀況有所差異,在西方的應用源自於媒體企業與科技公司的共同合力。
演算法新聞在新聞業中的運用帶來了:新聞內容生產模式由「手工作坊」轉向人機協同、表徵現實的機制由記者中介轉向演算法中介、新聞敘事由線性敘事轉向交互敘事、新聞價值評價由經驗判斷轉向實證測量、新聞內容推送方式由大眾化覆蓋轉向個體化定製等變革。
在這些轉變中演算法新聞的自動化生產及其個性化推薦的分發對新聞業的影響最大。由此可見,傳統報業的式微及其開始過渡到數字新聞業的這些轉變趨勢,都使得整體新聞業處在「演算法轉向」的十字路口。
⑵ 奇異值分解SVD應用——LSI
奇異值分解SVD應用——LSI
在自然語言處理中,最常見的兩類的分類問題分別是,將文本按主題歸類(比如將所有介紹亞運會的新聞歸到體育類)和將詞彙表中的字詞按意思歸類(比如將各種體育運動的名稱個歸成一類)。這兩種分類問題都可用通過矩陣運算來圓滿地、同時解決。為了說明如何用矩陣這個工具類解決這兩個問題的,讓我們先來來回顧一下我們在餘弦定理和新聞分類中介紹的方法。
分類的關鍵是計算相關性。我們首先對兩個文本計算出它們的內容詞,或者說實詞的向量,然後求這兩個向量的夾角。當這兩個向量夾角為零時,新聞就相關;當它們垂直或者說正交時,新聞則無關。當然,夾角的餘弦等同於向量的內積。從理論上講,這種演算法非常好。但是計算時間特別長。通常,我們要處理的文章的數量都很大,至少在百萬篇以上,二次回標有非常長,比如說有五十萬個詞(包括人名地名產品名稱等等)。如果想通過對一百萬篇文章兩篇兩篇地成對比較,來找出所有共同主題的文章,就要比較五千億對文章。現在的計算機一秒鍾最多可以比較一千對文章,完成這一百萬篇文章相關性比較就需要十五年時間。注意,要真正完成文章的分類還要反復重復上述計算。
在文本分類中,另一種辦法是利用矩陣運算中的奇異值分解(Singular Value Decomposition,簡稱 SVD)。現在讓我們來看看奇異值分解是怎麼回事。首先,我們可以用一個大矩陣A來描述這一百萬篇文章和五十萬詞的關聯性。這個矩陣中,每一行對應一篇文章,每一列對應一個詞。
在上面的圖中,M=1,000,000,N=500,000。第 i 行,第 j 列的元素,是字典中第 j 個詞在第 i 篇文章中出現的加權詞頻(比如,TF/IDF)。讀者可能已經注意到了,這個矩陣非常大,有一百萬乘以五十萬,即五千億個元素。
奇異值分解就是把上面這樣一個大矩陣,分解成三個小矩陣相乘,如下圖所示。比如把上面的例子中的矩陣分解成一個一百萬乘以一百的矩陣X,一個一百乘以一百的矩陣B,和一個一百乘以五十萬的矩陣Y。這三個矩陣的元素總數加起來也不過1.5億,僅僅是原來的三千分之一。相應的存儲量和計算量都會小三個數量級以上。
三個矩陣有非常清楚的物理含義。第一個矩陣X中的每一列表示一類主題,其中的每個非零元素表示一個主題與一篇文章的相關性,數值越大越相關。最後一個矩陣Y中的每一列表示100個關鍵詞,每個key word與500,000個詞的相關性。中間的矩陣則表示文章主題和keyword之間的相關性。因此,我們只要對關聯矩陣A進行一次奇異值分解,w 我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關性)。
比如降至2維(rank=2),則document-term的關系可以在下面二維圖中展現:
在圖上,每一個紅色的點,都表示一個詞,每一個藍色的點,都表示一篇文檔,這樣我們可以對這些詞和文檔進行聚類,比如說stock 和 market可以放在一類,因為他們老是出現在一起,real和estate可以放在一類,dads,guide這種詞就看起來有點孤立了,我們就不對他們進行合並了。按這樣聚類出現的效果,可以提取文檔集合中的近義詞,這樣當用戶檢索文檔的時候,是用語義級別(近義詞集合)去檢索了,而不是之前的詞的級別。這樣一減少我們的檢索、存儲量,因為這樣壓縮的文檔集合和PCA是異曲同工的,二可以提高我們的用戶體驗,用戶輸入一個詞,我們可以在這個詞的近義詞的集合中去找,這是傳統的索引無法做到的。
現在剩下的唯一問題,就是如何用計算機進行奇異值分解。這時,線性代數中的許多概念,比如矩陣的特徵值等等,以及數值分析的各種演算法就統統用上了。在很長時間內,奇異值分解都無法並行處理。(雖然 Google 早就有了MapRece 等並行計算的工具,但是由於奇異值分解很難拆成不相關子運算,即使在 Google 內部以前也無法利用並行計算的優勢來分解矩陣。)最近,Google 中國的張智威博士和幾個中國的工程師及實習生已經實現了奇異值分解的並行演算法,我認為這是 Google 中國對世界的一個貢獻。
最後說說個人拙見,這里我們可以把document和term(word)中間加上一層latent semantics項,那麼上圖中的X和Y矩陣就可以分別表示同一個latent semantics對不同document之間的相關性和同一latent semantics在不同terms之間的相關性聯系。X和Y的大小分別是m*r與r*n,r為A矩陣的rank(秩),最後,B是A的r個奇異值組成的對角方陣(r*r),在譜分解中也就是A的r個特徵值。
⑶ 什麼是演算法新聞
演算法新聞又稱作機器人新聞﹑自動化新聞、計算新聞,是通過計算機演算法工具,進行自動新聞生產﹑推送並實現商業化運營的系統,具體包括演算法新聞寫作、編輯、演算法推薦機制和平台聚合分發機制及營銷等業務的自動化新聞生產流程。
演算法新聞是運用智能演算法工具自動生產新聞並實現商業化運營的過程、方法或系統,它包括信息採集、儲存、寫作、編輯、展示、數據分析及營銷等業務的自動化實現。廣義的它指包括生產和分發的中運用演算法:在生產環節運用演算法工具自動生成新聞內容,在分發環節引入推薦演算法,在銷售環節實現了傳者、受眾和消費者的聚合,造就了流程更清晰、作業更高效、銷售更精準、目標更明確、成本更低廉的業務鏈條。
傳統的新聞分發像超市,媒體根據受眾市場准備若干新聞供受眾選用。由於媒體難以同時滿足所有受眾的信息需求,媒體和受眾之間呈一次性消費關系媒體和用戶的粘黏度不高。而演算法推送能夠持續不斷地為目標用戶推送其感興趣和需要的信息,由於能夠敏銳捕捉服務對象細微的信息需求變化,媒體推送內容也隨之調整使信息服務轉變為追蹤式全程服務,極大地增加了媒體和用戶的粘黏度。
第三,依賴大數據資源提高新聞報道的預測性。
基於大數據的演算法擁有模擬數據時代無可比擬的預測功能,它通過全樣本的相關性分析在不知曉因果性的情況下就可以做出精準的預測和有力的推論。大數據「這個系統依賴的是相互關系而不是因果關系。它告訴你的是會發生什麼而不是為什麼發生。」相比於傳統新聞小數據時代,大數據更強調用戶數據的完整性和混雜性這種數據不僅能幫助我們接近事實真相而且能准確地推測受眾所喜歡的新聞。
傳統新聞生產具有一定的滯後性,新聞事件發生後媒體才啟動新聞生產程序,新聞作品發表後往往已經變成街頭巷尾議論的舊聞,加之自媒體時代人人是記者,傳統媒體生產新聞流程的劣勢被放大以至於第一時間缺席很多重要的新聞事件報道。大數據預測使新聞報道不再建立於人的經驗判斷上,媒體通過大數據預先掌握感興趣受眾群分布及其價值取向。繼而展開選題策劃及采寫,極大地提高新聞報道的針對性和有效性。以范某某逃稅案為例根據既往經驗媒體很容易認為受眾對逃稅案的態度應該是反對逃稅並要求嚴懲然而大數據顯示;公眾的意見是分裂的部分公眾已經了解到《刑法》相關條款做過修改,首次逃稅被查只要補繳稅款將免於刑事處分。媒體基於公眾關於逃稅處分意見分裂的現狀策劃和組織該案報道,比單一視角和判斷標準的報道更容易獲得成功。
演算法新聞的意義
演算法新聞的出現展示出了新聞生產顛覆性的模式改變,對未來新聞傳播領域的發展意義深遠,從新聞生產的角度看,演算法的介入在一定程度上替代了傳統新聞傳播業部分信息採集環節,高效處理大量的信息內容,降低了勞動成本,提高了生產力。
從新聞分發的角度看,演算法通過對於用廣戶信息的智能收集和歸類,能夠更為精確地進行內容推送,為用戶「量身定製」個性化信息成為常態從新聞覆蓋角度看,借用麥克盧漢「媒介是人的延伸」的觀點,演算法作為一種人的新「延伸」,介入到信息產銷的整個環節中,通過計算機程序在海量的信息中完成話題抓取,突破並且延伸了人類所能觸及的視野,帶來了更大范圍和更多維度的報道。
演算法在整個新聞生產中粉演著信息樞紐的角色,將海量信息和用戶緊密地鏈接在一起,新聞內容生產環節和分發環節的邊界逐漸消融,形成了高效同步的閉環,搭建出智能化的新聞生產模式。
演算法新聞對新聞傳播業的影響
1、對傳統新聞生產及運營模式的替代
演算法新聞在生產效率、准確性和盈利能力上有顯著優勢,且能夠極大降低成本,可以替代或補充新聞生產及運營的某些環節,如報道、撰寫、編輯和發布文章等,它具有人們無法想像的高效率,能迅速處理大容量信息、自動完成定製文章撰寫、實現精準推薦等能力。但在一些數據積累偏少或需高度創造性寫作的領域,演算法新聞尚無法實現。
2、對記者職業的替代
對於演算法新聞是否會替代記者職業,目前有兩種不同取向。
第一種是可替代論,認為記者職業是可被替代的,傳統媒體運營面臨成本高昂的困境,它們期待通過演算法新聞降低勞動力成本,機器記者具有無酬(或低酬)勞動的優勢,記者失業將不可避免。
第二種是折中論或互補論,機寫新聞與人寫新聞各有所長,機器記者的優勢在於精準性、客觀性、簡潔性和迅捷性,人類記者的優勢在於分析技巧、個性、創造力,以及撰寫復雜句子與精品新聞的技能。當日常工作可以自動化時,記者將有更多時間進行深度報道,進而實現人機協作或和諧共生。至於記者所依託的傳統媒體的發展趨勢,有研究認為,未來媒體的生態場景是混合的、多面的,只要報紙積極參與變革,將演算法新聞策略融入傳統媒體發展戰略,這類媒體還會持久存在。
3、傳統新聞的價值理念、理論規范和法律法規帶來新的挑戰
演算法新聞排除了人為情感、價值判斷等主觀因素干預,這是否意味著機器新聞「更真實」?演算法新聞著眼於滿足受眾信息需求,那麼,如何凸顯媒體的社會責任及輿論引導功能?在演算法新聞時代,由機器操控新聞的生產與運營,如何保障新聞自由?此外,如何確保演算法新聞的透明度?隨著機器新聞寫作質量的不斷提升,機寫新聞與人寫新聞的差異正在縮小,但一些媒體機構可能利用這種技術進展,混淆兩者的界限,使用機器人冒充人類記者,進而欺騙讀者。
參考文獻
1.0 1.1 1.2 張幟. 智媒時代對新聞生產中演算法新聞倫理的思考.海南大學學報(人文社會科學版),2019:75-83.
2.0 2.1 2.2 演算法新聞、自動化新聞、機器人新聞、數據驅動新聞……它們究竟是什麼?.搜狐網.2019.7.31
陸新蕾. 演算法新聞:技術變革下的問題與挑戰. 社會科學文摘, 2019(5):3.
⑷ 貝葉斯演算法原理
貝葉斯演算法是一種基於概率統計學的機器學習演算法,其原理主要是利用貝葉斯定理進行分類。貝葉斯演算法已經被廣泛應用於文本分類、垃圾郵件過濾、新聞推薦和醫療診斷等領域。
貝葉斯演算法的核心思想是基於貝葉斯定理:後驗概率=先驗概率×似然度/證據因子。在分類問題中,我們需要根據已知的特徵值來預測一個樣本所屬於某個類別的概率。
總的來說,貝葉斯演算法是一種基於統計學的機器學習演算法,其原理是利用貝葉斯定理進行分類。雖然該演算法在文本分類、垃圾郵件過濾、新聞推薦和醫療診斷等領域得到了廣泛應用,但也需要針對具體情況進行合理地特徵選擇,並注意特徵之間的關聯關系,才能確保其在實際應用中具有較好的表現。