大數據聚類演算法

發布時間: 2022-07-28 00:43:15

⑴ 數據量比較大適合用模糊聚類分析嗎/

不適合，因為模糊聚類用到了隸屬度，導致計算量大大超過了普聽的硬聚類演算法。最好用普通的硬聚類，k均值是一個不錯的選擇，速度目前應該是最快的效果也不錯。如果數據過大可以考慮使用專門適合於大數據集合的聚類演算法如BIRCH 等。

⑵ 大數據十大經典演算法之k-means

大數據十大經典演算法之k-means
k均值演算法基本思想：
K均值演算法是基於質心的技術。它以K為輸入參數，把n個對象集合分為k個簇，使得簇內的相似度高，簇間的相似度低。
處理流程：
1、為每個聚類確定一個初始聚類中心，這樣就有k個初始聚類中心；
2、將樣本按照最小距離原則分配到最鄰近聚類
3、使用每個聚類中的樣本均值作為新的聚類中心
4、重復步驟2直到聚類中心不再變化
5、結束，得到K個聚類
劃分聚類方法對數據集進行聚類時的要點：
1、選定某種距離作為數據樣本間的相似性度量，通常選擇歐氏距離。
2、選擇平價聚類性能的准則函數
用誤差平方和准則函數來評價聚類性能。
3、相似度的計算分局一個簇中對象的平均值來進行
K均值演算法的優點：
如果變數很大，K均值比層次聚類的計算速度較快（如果K很小）；
與層次聚類相比，K均值可以得到更緊密的簇，尤其是對於球狀簇；
對於大數據集，是可伸縮和高效率的；
演算法嘗試找出使平方誤差函數值最小的k個劃分。當結果簇是密集的，而簇與簇之間區別明顯的時候，效果較好。
K均值演算法缺點：
最後結果受初始值的影響。解決辦法是多次嘗試取不同的初始值。
可能發生距離簇中心m最近的樣本集為空的情況，因此m得不到更新。這是一個必須處理的問題，但我們忽略該問題。
不適合發現非凸面形狀的簇，並對雜訊和離群點數據較敏感，因為少量的這類數據能夠對均值產生較大的影響。
K均值演算法的改進：
樣本預處理。計算樣本對象量量之間的距離，篩掉與其他所有樣本那的距離和最大的m個對象。
初始聚類中心的選擇。選用簇中位置最靠近中心的對象，這樣可以避免孤立點的影響。
K均值演算法的變種：
K眾數（k-modes）演算法，針對分類屬性的度量和更新質心的問題而改進。
EM（期望最大化）演算法
k-prototype演算法
這種演算法不適合處理離散型屬性，但是對於連續型具有較好的聚類效果。
k均值演算法用途：
圖像分割；
衡量足球隊的水平；
下面給出代碼：
#include <iostream>
#include <vector>
//auther archersc
//JLU
namespace CS_LIB
{
using namespace std;
class Kmean
{
public:
//輸入格式
//數據數量N 維度D
//以下N行，每行D個數據
istream& loadData(istream& in);
//輸出格式
//聚類的數量CN
//中心維度CD
//CN行，每行CD個數據
//數據數量DN
//數據維度DD
//以下DN組，每組的第一行兩個數值DB, DDis
//第二行DD個數值
//DB表示改數據屬於一類，DDis表示距離改類的中心的距離
ostream& saveData(ostream& out);
//設置中心的數量
void setCenterCount(const size_t count);
size_t getCenterCount() const;
//times最大迭代次數， maxE ,E(t)表示第t次迭代後的平方誤差和，當|E(t+1) - E(t)| < maxE時終止
void clustering(size_t times, double maxE);

private:
double calDistance(vector<double>& v1, vector<double>& v2);

private:
vector< vector<double> > m_Data;
vector< vector<double> > m_Center;
vector<double> m_Distance;
vector<size_t> m_DataBelong;
vector<size_t> m_DataBelongCount;
};
}
#include "kmean.h"

#include <ctime>
#include <cmath>
#include <cstdlib>
//auther archersc
//JLU

namespace CS_LIB
{
template<class T>
void swap(T& a, T& b)
{
T c = a;
a = b;
b = c;
}

istream& Kmean::loadData(istream& in)
{
if (!in){
cout << "input error" << endl;
return in;
}
size_t dCount, dDim;
in >> dCount >> dDim;
m_Data.resize(dCount);
m_DataBelong.resize(dCount);
m_Distance.resize(dCount);
for (size_t i = 0; i < dCount; ++i){
m_Data[i].resize(dDim);
for (size_t j = 0; j < dDim; ++j){
in >> m_Data[i][j];
}
}
return in;
}
ostream& Kmean::saveData(ostream& out)
{
if (!out){
cout << "output error" << endl;
return out;
}
out << m_Center.size();
if (m_Center.size() > 0)
out << << m_Center[0].size();
else
out << << 0;
out << endl << endl;
for (size_t i = 0; i < m_Center.size(); ++i){
for (size_t j = 0; j < m_Center[i].size(); ++j){
out << m_Center[i][j] << ;
}
out << endl;
}
out << endl;
out << m_Data.size();
if (m_Data.size() > 0)
out << << m_Data[0].size();
else
out << << 0;
out << endl << endl;
for (size_t i = 0; i < m_Data.size(); ++i){
out << m_DataBelong[i] << << m_Distance[i] << endl;
for (size_t j = 0; j < m_Data[i].size(); ++j){
out << m_Data[i][j] << ;
}
out << endl << endl;
}
return out;
}
void Kmean::setCenterCount(const size_t count)
{
m_Center.resize(count);
m_DataBelongCount.resize(count);
}
size_t Kmean::getCenterCount() const
{
return m_Center.size();
}
void Kmean::clustering(size_t times, double maxE)
{
srand((unsigned int)time(NULL));
//隨機從m_Data中選取m_Center.size()個不同的樣本點作為初始中心。
size_t *pos = new size_t[m_Data.size()];
size_t i, j, t;
for (i = 0; i < m_Data.size(); ++i){
pos[i] = i;
}
for (i = 0; i < (m_Data.size() << 1); ++i){
size_t s1 = rand() % m_Data.size();
size_t s2 = rand() % m_Data.size();
swap(pos[s1], pos[s2]);
}
for (i = 0; i < m_Center.size(); ++i){
m_Center[i].resize(m_Data[pos[i]].size());
for (j = 0; j < m_Data[pos[i]].size(); ++j){
m_Center[i][j] = m_Data[pos[i]][j];
}
}
delete []pos;
double currE, lastE;
for (t = 0; t < times; ++t){
for (i = 0; i < m_Distance.size(); ++i)
m_Distance[i] = LONG_MAX;
for (i = 0; i < m_DataBelongCount.size(); ++i)
m_DataBelongCount[i] = 0;
currE = 0.0;
for (i = 0; i < m_Data.size(); ++i){
for (j = 0; j < m_Center.size(); ++j){
double dis = calDistance(m_Data[i], m_Center[j]);
if (dis < m_Distance[i]){
m_Distance[i] = dis;
m_DataBelong[i] = j;
}
}
currE += m_Distance[i];
m_DataBelongCount[m_DataBelong[i]]++;
}
cout << currE << endl;
if (t == 0 || fabs(currE - lastE) > maxE)
lastE = currE;
else
break;
for (i = 0; i < m_Center.size(); ++i){
for (j = 0; j < m_Center[i].size(); ++j)
m_Center[i][j] = 0.0;

}
for (i = 0; i < m_DataBelong.size(); ++i){
for (j = 0; j < m_Data[i].size(); ++j){
m_Center[m_DataBelong[i]][j] += m_Data[i][j] / m_DataBelongCount[m_DataBelong[i]];
}
}
}
}
double Kmean::calDistance(vector<double>& v1, vector<double>& v2)
{
double result = 0.0;
for (size_t i = 0; i < v1.size(); ++i){
result += (v1[i] - v2[i]) * (v1[i] - v2[i]);
}
return pow(result, 1.0 / v1.size());
//return sqrt(result);
}
}
#include <iostream>
#include <fstream>
#include "kmean.h"
using namespace std;
using namespace CS_LIB;

int main()
{
ifstream in("in.txt");
ofstream out("out.txt");
Kmean kmean;
kmean.loadData(in);
kmean.setCenterCount(4);
kmean.clustering(1000, 0.000001);
kmean.saveData(out);

return 0;
}

⑶ 常用的聚類方法有哪幾種

聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。

1、劃分法，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。

2、層次法，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。

3、基於密度的方法，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類方法解決的第一步是建立與問題相適應的圖，圖的節點對應於被分析數據的最小單元，圖的邊（或弧）對應於最小處理單元數據之間的相似性度量。

5、基於網格的方法，這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。

6、基於模型的方法，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。

(3)大數據聚類演算法擴展閱讀：

在商業上，聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

它作為數據挖掘中的一個模塊，可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息，並且概括出每一類的特點，或者把注意力放在某一個特定的類上以作進一步的分析；並且，聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好；但是，一個大規模資料庫可能包含幾百萬個對象，在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。

許多聚類演算法在聚類分析中要求用戶輸入一定的參數，例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定，特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔，也使得聚類的質量難以控制。

⑷ 聚類演算法的聚類要求

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好；但是，一個大規模資料庫可能包含幾百萬個對象，在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
我們需要具有高度可伸縮性的聚類演算法。（high dimensionality）
一個資料庫或者數據倉庫可能包含若干維或者屬性。許多聚類演算法擅長處理低維的數據，可能只涉及兩到三維。人類的眼睛在最多三維的情況下能夠很好地判斷聚類的質量。在高維空間中聚類數據對象是非常有挑戰性的，特別是考慮到這樣的數據可能分布非常稀疏，而且高度偏斜。用戶希望聚類結果是可解釋的，可理解的，和可用的。也就是說，聚類可能需要和特定的語義解釋和應用相聯系。應用目標如何影響聚類方法的選擇也是一個重要的研究課題。
記住這些約束，我們對聚類分析的學習將按如下的步驟進行。首先，學習不同類型的數據，以及它們對聚類方法的影響。接著，給出了一個聚類方法的一般分類。然後我們詳細地討論了各種聚類方法，包括劃分方法，層次方法，基於密度的方法，基於網格的方法，以及基於模型的方法。最後我們探討在高維空間中的聚類和孤立點分析（outlier analysis）。

⑸ 在大數據量時，K-means演算法和層次聚類演算法誰更有優勢

這個問題其實是無解的，數據不同，演算法的分類效果、實際運行時間也是不同。
若單從運算速度而言，k-means比層次更快。
原因是K-means是找中心，然後計算距離；層次是逐個樣本逐層合並，層次的演算法復雜度更高。
更重要的是，在大數量下，K-means演算法和層次聚類演算法的分類效果真的只能用見仁見智來形容了。

⑹ 聚類演算法有哪些分類

聚類演算法的分類有：

1、劃分法

劃分法(partitioning methods)，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K小於N。而且這K個分組滿足下列條件：

（1）每一個分組至少包含一個數據紀錄；

（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類演算法中可以放寬）；

2、層次法

層次法(hierarchical methods)，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。

例如，在「自底向上」方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合並成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。

3、密度演算法

基於密度的方法(density-based methods)，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類法

圖論聚類方法解決的第一步是建立與問題相適應的圖，圖的節點對應於被分析數據的最小單元，圖的邊（或弧）對應於最小處理單元數據之間的相似性度量。因此，每一個最小處理單元數據之間都會有一個度量表達，這就確保了數據的局部特性比較易於處理。圖論聚類法是以樣本數據的局域連接特徵作為聚類的主要信息源，因而其主要優點是易於處理局部數據的特性。

5、網格演算法

基於網格的方法(grid-based methods)，這種方法首先將數據空間劃分成為有限個單元（cell）的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快，通常這是與目標資料庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。

代表演算法有：STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法；

6、模型演算法

基於模型的方法(model-based methods)，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分布所決定的。

通常有兩種嘗試方向：統計的方案和神經網路的方案。

(6)大數據聚類演算法擴展閱讀：

聚類演算法的要求：

1、可伸縮性

我們需要具有高度可伸縮性的聚類演算法。

2、不同屬性

許多演算法被設計用來聚類數值類型的數據。但是，應用可能要求聚類其他類型的數據，如二元類型(binary)，分類/標稱類型（categorical/nominal），序數型（ordinal）數據，或者這些數據類型的混合。

3、任意形狀

許多聚類演算法基於歐幾里得或者曼哈頓距離度量來決定聚類。基於這樣的距離度量的演算法趨向於發現具有相近尺度和密度的球狀簇。但是，一個簇可能是任意形狀的。提出能發現任意形狀簇的演算法是很重要的。

4、領域最小化

5、處理「雜訊」

絕大多數現實中的資料庫都包含了孤立點，缺失，或者錯誤的數據。一些聚類演算法對於這樣的數據敏感，可能導致低質量的聚類結果。

6、記錄順序

一些聚類演算法對於輸入數據的順序是敏感的。例如，同一個數據集合，當以不同的順序交給同一個演算法時，可能生成差別很大的聚類結果。開發對數據輸入順序不敏感的演算法具有重要的意義。

⑺ 用於數據挖掘的聚類演算法有哪些，各有何優勢

大數據現在很火，有很多的企業在高薪聘請大數開發據人才，因此很多人紛紛開始學習大數據開發，希望可以獲得一份高薪工作，關於大數據開發的優勢有一下幾點：
1、對於企業而言，通過微信連接用戶和商家已是企業重要的發展方向，大數據將為你的企業帶來優勢。
2、大數據可以提高數據的可用性，大數據需要尖端的可視化數據工具，以把所有的數字和數據點轉化成一些更具體的數據。這將增加數據整體的可用性，以便企業自己或他們的最終用戶使用。
3、大數據的就業薪資，這應該是想要學習大數據朋友最為關心的問題了，大數據的發展前景很好，因此薪資待遇是不叫不錯的。
互聯網是當下流行趨勢，大數據的發展是必然的，如果你想要學習大數據的話可以關注扣丁學堂，那裡有大量的大數據視頻教程供學員觀看學習。對於一般的企業而言，大數據的作用主要表現在兩個方面，分別是數據的分析使用與進行二次開發項目，大數據的運用，不僅標志著時代的進步，同時還激勵著人們進行更深領域的探究。
現在的大數據開發技術讓大數據成為了2017年移動互聯網追逐的熱點，想要自學的話也是可以的，但是你最好找到不錯的教程，不然怕越學越亂。關於大數據的視頻教程你可以看扣丁學堂的，只要你沉下心好好跟著老師學就可以學的很棒。

⑻ 增量聚類演算法包括哪些

bigshuai
增量聚類演算法
目前有關增量聚類的研究主要是將增量數據看成是時間序列數據或按特定順序的數據, 主要可以分成兩類: 一類是每次將所有數據進行迭代,即從第一個數據到最後一個數據進行迭代運算, 其優點是精度高, 不足之處是不能利用前一次聚類的結果, 浪費資源; 另一類是利用上一次聚類的結果,每次將一個數據點劃分到已有簇中, 即新增的數據點被劃入中心離它最近的簇中並將中心移向新增的數據點, 也就是說新增的數據點不會影響原有劃分, 其優點是不需要每次對所有數據進行重新聚類, 不足之處是泛化能力弱, 監測不出孤立點。因此, 如何設計增量聚類演算法以提高聚類效率, 成為當前聚類分析的一個重要挑戰。
目前存在各種各樣的聚類方法[ 3] , 傳統的聚類方法主要被劃分成五類: 基於層次的、基於劃分的、基於密度的、基於網格的和基於模型的聚類。基於層次的聚類和基於劃分的聚類是實際生活中應用最為廣泛的兩類。前者可以進一步劃分為自底向上和自頂向下兩種[ 1] , 例如CLIQUE[ 3] 、ENCLUS 和MAFIA[ 4] 屬於自底向上演算法, PROCLUS[ 5] 和ORCLUS[ 6 ]屬於自頂向下的演算法。但是, 傳統的層次聚類演算法由於計算量過大不適用於大數據集, 例如BIRCH[ 2] 和CURE[ 7 ] 。傳統的基於劃分的演算法包括k-means、k-modes等等, 其中k-means是現存聚類演算法中最經典的聚類演算法[ 8, 9] 。
增量聚類是維持或改變k 個簇的結構的問題。比如, 一個特定序列中的新的數據點可能被劃分到已有k 個簇的一個簇中, 也可能被劃分到新的簇中,此時會需要將另外兩個簇變成一個[ 10 ] 。自從H art igan在文獻[ 11]中提出的演算法被實現[ 12] , 增量聚類就吸引了眾人的關注。D. Fisher[ 13] 提出的COBWEB 演算法是一種涉及到增量形式數據點的增量聚類演算法。文獻[ 14, 15]中給出了與資料庫的動態方面相關的增量聚類的詳細闡述, 文獻[ 16􀀁 18]中列出了其廣泛應用的領域。對增量聚類產生興趣的動力是主存空間有限, 有些信息不需要存儲起來,例如數據點之間的距離, 同時增量聚類演算法可以根據數據點集的大小和屬性數進行擴展[ 19] 。文獻[ 10, 17]中也對於求解增量聚類問題的演算法進行了研究。
現在很多聚類演算法都是對單一數據類型的數據進行聚類, 但是現實數據中非常多的數據都是混合數據類型的數據, 既包含數值屬性數據, 還是分類屬性數據, 簡單地丟棄其中一種數據類型, 或者將其中一種數據類型轉換成另一種, 都會影響聚類的精度。因此, 混合屬性數據增量聚類的研究具有非常重要的意義。
2 基於傳統聚類方法及其變形的增量聚類演算法
現在對於增量聚類方法的增量處理主要集中在三個方面, 一類是基於傳統聚類方法及其各種變形的增量聚類演算法, 一類是基於生物智能的增量聚類演算法, 另一類是針對數據流的聚類演算法。

閱讀全文

熱點內容

python求餘弦發布：2025-03-15 02:59:47 瀏覽：53

什麼叫伺服器域名發布：2025-03-15 02:58:13 瀏覽：315

php框架實例發布：2025-03-15 02:58:01 瀏覽：935

android結束子線程結束發布：2025-03-15 02:49:24 瀏覽：859

北京理工大學伺服器ip 發布：2025-03-15 02:46:16 瀏覽：707

自動配置腳本怎麼刪除發布：2025-03-15 02:46:11 瀏覽：808

國內唯一免費的雲伺服器發布：2025-03-15 02:27:36 瀏覽：980

怎麼重啟遠程伺服器發布：2025-03-15 02:26:53 瀏覽：248

u盤加密狗復制克隆軟體發布：2025-03-15 02:20:53 瀏覽：483

能玩VR的電腦要什麼配置發布：2025-03-15 02:19:36 瀏覽：716

大數據聚類演算法

與大數據聚類演算法相關的資訊