當前位置:首頁 » 操作系統 » 時序模式演算法

時序模式演算法

發布時間: 2025-03-14 12:50:45

『壹』 論文閱讀_時序聚類K-Shape

這是一篇發表於2015年SIGMODE數據管理國際頂會的論文,它主要針對時序數據的聚類問題,提出了K-Shape方法。與以往的方法相比,它優化了距離計算方法,質心計算方法,還引入了提取頻域特徵方法,以提升效率。

作者認為它是一種獨立於領域、高精度、高效率的時間序列聚類方法。

我覺得相對於傳統方法,它聚類效果更好;相對於DTW類方法,效果稍差,但速度快很多。畢竟從原理來看,K-Shape只考慮了縱向拉伸和橫向平移,而DTW還考慮了橫向拉伸。

K-Shape原理和K-means相似,不同在於它改進了距離計算方法,並優化了質心計算方法。一方面支持振幅縮放和平移不變性,另一方面計算效率也比較高,並且不用手動設置參數,便於擴展到更多領域。

距離演算法用於計算兩組時序數據的差異,其中的核心問題是如何處理時序數據的形變,論文中的圖-1 展示的心電圖數據被分為A/B兩類:

其中A類的特點是:上升->下降->上升,而B類的特點是:下降->上升。圖-1 的右下圖展示了理想的建模效果,它識別到了相同的模式,而忽略了幅度和相位的差異。人們也更傾向使用這種方法計算距離,很多時候甚至認為距離計算方法比聚類方法更加重要。一般來說,支持振幅縮放和平移不變性的方法,計算成本較高,難以對大數據量建模。

K-Shape之前的主流距離演算法如下:

K-Shape用互相關方法計算兩個時間序列的距離。假設有X和Y兩個時間序列,序列長度均為m。為實現平移不變性,Y不變,一步一步劃動X,並計算每一步X與Y的差異。

如上圖所示:假設綠色區域為Y,白色區域為劃動的X,每一行s(step)向前劃動一步,序列長度為m=4,s∈(-3,3)共7種取值,w是所有移動的可能性2m-1=7次,w-m=s=k,也就是下面公式中的對齊位置(對齊邏輯貫穿整個演算法)。

定義互相關系數CC:

利用R來計算x和y在每一步的相似度,在對的上(在X,Y中都存在)的位置計算點積,最終R是有效區域的點積之和(對每個對上的小塊加和)。可以說,R越大兩個序列越相似。

由於對比的每個子序列振幅不同,塊數也不同,所以在對比時需要進行歸一化,歸一化方法有三種, 第三種使用了互相關方法,效果最好。

歸一化效果如下圖所示:

其中圖(a)使用z-normalization只做了對振幅的歸一化,沒有平移,可見在上述情況下,不平移(正對上)時對齊效果最好。從(b)(c)(d)可以看到:(d)圖使用第三種方法,在最中間的點上相似度值最大(s=0時),即正對上的時候,其相似度最大,這與(a)呈現出的效果一致。而(b)(c)都認為最相似的情況出現在右側,這明顯不太對。

文中定義了基於形態的距離SBD(Shape-based distance),塊重疊越多形狀越像CC越大,對比所有可能位置的相似度值,取最相似的max(CC),然後用1-max(CC)得到SBD,也就是說形狀越相似,距離SBD越小,歸一化後的NCC值在[-1,1]之間,因此,SBD值在[0,2]之間。

可以看到,用以上方法時間在序列較長時復雜度比較高,當序列較長時,計算量也會很大,為解決這一問題,作者提出使用傅里葉變換將序列由時域轉到頻域再比較,以節約計算量。

定義了距離之後,還需要根據距離邏輯來調整質心演算法。

從圖-4 可以看到:時序數據的質心也是一條時序變化線,圖中的藍色線使用均值方法(計算每個點的均值)來計算質心;由於錯位,波峰和波谷被拉成了直線,因此不能正確地表達形狀趨勢。

K-Shape使用基於SBD的方式計算質心。

該公式的目標是尋找μk*,使質心μk與該簇Pk中各條序列xi的相似度NCC最大。

演算法一:先使用SBD() 函數計算dist和y',dist是時序x,y之間的距離,y'是y中與x最匹配的子段。使用這種方法解決了波峰波谷對不齊,以致相互抵消的問題。

然後用基於線性代數方法,將公式13展開成公式15:

最終可利用瑞利商公式加以簡化:

瑞利商R(M,x)的一個重要的性質是:R的最大值等於矩陣M最大的特徵值,最小值等於矩陣M最小的特徵值。此時,就不用太考慮R(M,x)中的x(即本問題中的uk)。公式13被簡化成以下演算法:

演算法二:ShapeExtraction()根據簇的當前質心C和簇內的所有點X,計算更合理的質心C'。
line2: 遍歷簇內所有的點X(i)
line3: 計算各點與質心的距離dist以及其中與質心最為相似的片斷x'
line4: 將最為相似的片斷加入X'
line5: X'轉置與X相乘生成一個方陣(X的平方)
line6: 創建用於正則化的矩陣Q
line7: 正則化後生成矩陣M
line8: 取矩陣M對應最大特徵值時的特徵向量,以實現對X'的特徵抽取
(以上說明為個人理解,不一定對,僅供參考)

最終的聚類方法通過迭代實現,每次迭代分為兩步:第一步重新計算質心,第二步根據每個序列與新質心的距離將它們重新分配到不同的簇中;一直循環迭代到標簽不再變化為止。

演算法三:聚類的完整過程由 k-Shape() 實現:

其中X是所有序列,k是簇的個數,IDX是標簽。
line3: 在標簽穩定前&迭代次數不超過100次的條件下,不斷迭代
line4-10:根據簇中的元素重新計算每個簇的質心C
line11-line17:計算每個序列與各個質心的距離,並將它分配到新的簇中(重新打標簽)。

K-Shape演算法每次迭代所需時間為:
O(max{n·k·m·log(m), n·m^2, k·m^3})
其中n是實例個數,k是簇個數,m是序列長度。可見,該演算法大部分的計算代價依賴於時間序列的長度m。然而,這個長度通常比時間序列的數目小得多,因此,對m的依賴不是瓶頸。在m非常大的極少數情況下,可以使用分段或降維方法來有效地減小序列的長度。

圖-5對比了K-Shape、ED和DTW模型效果,可以看到絕大多數情況下,SBD好於ED,部分情況下SBD好於DTW。但SBD比DTW好在它速度更快。

『貳』 大數據挖掘方法有哪些

方法1.Analytic Visualizations(可視化分析)


無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數空橋滾據,讓數據自己說話,讓聽眾看到結果。


方法2.Data Mining Algorithms(數據挖掘演算法)


如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。


方法3.Predictive Analytic Capabilities(預測分析能力)


數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師斗余可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。


方法4.semantic engine(語義引擎)


由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。


方法5.Data Quality and Master Data Management(數據質量和主數據管理)


數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定消碼義的高質量分析結果。


關於大數據挖掘方法有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

『叄』 【MATLAB】tvf_emd_LSTM神經網路時序預測演算法

TVF-EMD-LSTM神經網路時序預測演算法是一種結合了變分模態分解(VMD)、經驗模態分解(EMD)和長短期記憶神經網路(LSTM)的時間序列預測方法。VMD能將復雜信號分解為多個固有模態函數(IMF),幫助提取時間序列中的復雜模式和趨勢。EMD則能處理非線性和非平穩信號,將時間序列數據轉化為一系列IMF,更好地表示時間序列中的復雜模式和趨勢。LSTM擅長處理具有長期依賴關系的時間序列數據,通過記憶單元學習歷史信息,增強預測准確性。

該演算法的基本思路是將原始時間序列通過VMD和EMD分解,得到IMF和殘差項。將IMF作為LSTM的輸入,通過多個獨立LSTM模型的訓練和預測,得到最終預測結果。VMD和EMD提供更准確的輸入數據,LSTM學習模式和趨勢的長期依賴關系,提高預測准確性和穩定性。

TVF-EMD-LSTM演算法在金融市場預測、氣象預報、能源消耗預測等領域應用廣泛。然而,計算復雜度高、需要大量數據是其潛在局限性。使用時應根據實際需求調整優化。

附出圖效果如下:

附視頻教程操作:

200種MATLAB演算法及繪圖合集

aliyundrive.com/s/9GrH3...

提取碼: f0w7

熱點內容
智慧易店伺服器地址是啥 發布:2025-03-14 20:57:49 瀏覽:886
小米ID密碼忘記了有什麼危害 發布:2025-03-14 20:45:28 瀏覽:610
大麥路由器怎麼改密碼 發布:2025-03-14 20:35:42 瀏覽:87
資料庫片語 發布:2025-03-14 20:27:21 瀏覽:248
角色卡演算法 發布:2025-03-14 20:08:48 瀏覽:650
linux伺服器安全加固 發布:2025-03-14 19:59:21 瀏覽:779
android系統資料庫 發布:2025-03-14 19:44:27 瀏覽:237
beats安卓手機怎麼彈窗 發布:2025-03-14 19:33:38 瀏覽:222
安卓手機新充電頭叫什麼 發布:2025-03-14 19:32:53 瀏覽:30
暗處增亮演算法 發布:2025-03-14 19:28:02 瀏覽:641