python的argsort

發布時間: 2023-08-05 14:44:18

Ⅰ 怎麼用python進行數據

pandas是本書後續內容的首選庫。pandas可以滿足以下需求：

具備按軸自動或顯式數據對齊功能的數據結構。這可以防止許多由於數據未對齊以及來自不同數據源（索引方式不同）的數據而導致的常見錯誤。.
集成時間序列功能
既能處理時間序列數據也能處理非時間序列數據的數據結構
數學運算和簡約（比如對某個軸求和）可以根據不同的元數據（軸編號）執行
靈活處理缺失數據
合並及其他出現在常見資料庫（例如基於SQL的）中的關系型運算

1、pandas數據結構介紹

兩個數據結構：Series和DataFrame。Series是一種類似於以為NumPy數組的對象，它由一組數據（各種NumPy數據類型）和與之相關的一組數據標簽（即索引）組成的。可以用index和values分別規定索引和值。如果不規定索引，會自動創建 0 到 N-1 索引。

#-*- encoding:utf-8 -*-import numpy as npimport osimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport time#下面看一下cummin函數#注意：這里的cummin函數是截止到目前為止的最小值，而不是加和以後的最小值frame = DataFrame([[1,2,3,4],[5,6,7,8],[-10,11,12,-13]],index = list('abc'),columns = ['one','two','three','four'])print frame.cummin()print frame

one two three four

a 1 2 3 4

b 1 2 3 4

c -10 2 3 -13

one two three four

a 1 2 3 4

b 5 6 7 8

c -10 11 12 -13

相關系數與協方差

有些匯總

Ⅱ 用python 求一個數組中最大的三個元素及其所在位置

參考代碼如下：
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

namespace FindMaxWithIndex
{
/// <summary>
/// 有一個數組，每個元素的值都是實數，請寫出求最大元素的值及其位置的演算法
/// </summary>
class Program
{
static void Main(string[] args)
{
double[] Num = new[] { -8, 4543.9, 4543.9, 3, 45, 654.7, 7, 66, 35, 45, 4, 6, 4543.9, 5, 46, 54, 6, 43, 5.980, 34, 4543.9 };
//double[] Num = new [] { 1.0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };

int[] index = SearchMaxWithIndex(Num);

Console.WriteLine("The max number is: {0}", Num[index[0]]);
Console.Write("The index of max number is:");

for (int i = 0; i < index.Length; i++)
{
if (index[i] == -1) break;
Console.Write(" '{0}'", index[i]);
}

Console.ReadKey();
}

private static int[] SearchMaxWithIndex(double[] arr)
{
int[] pos = new int[arr.Length]; //記錄最大值所在位置的數組

int position = 0; //初始設定數組的第1個元素為最大值

int j = 1;//j指示位置數組pos的下標

for (int i = 1; i < arr.Length; i++)
{
if (arr[i] > arr[position])
{
position = i; //記下新的最大值的位置
j = 1; //位置數組pos的下標恢復為1，下標為0的位置為position預留
}
else if (arr[i] == arr[position])
pos[j++] = i; //記下重復最大值的位置
}

pos[0] = position; //位置數組pos的下標為0的位置為position預留

if (j < arr.Length) pos[j] = -1; //-1為標識值，表示位置數組pos下標為0, 1, 2…(j-1)的位置存放的是最大值所在的位置

return pos;
}
}
}

Ⅲ python pca怎麼得到主成份

一般步驟來實現PCA演算法

（1）零均值化

假如原始數據集為矩陣dataMat，dataMat中每一行代表一個樣本，每一列代表同一個特徵。零均值化就是求每一列的平均值，然後該列上的所有數都減去這個均值。也就是說，這里零均值化是對每一個特徵而言的，零均值化都，每個特徵的均值變成0。實現代碼如下：

[python]view plain

defzeroMean(dataMat):
meanVal=np.mean(dataMat,axis=0)#按列求均值，即求各個特徵的均值
newData=dataMat-meanVal
returnnewData,meanVal

函數中用numpy中的mean方法來求均值，axis=0表示按列求均值。

該函數返回兩個變數，newData是零均值化後的數據，meanVal是每個特徵的均值，是給後面重構數據用的。

（2）求協方差矩陣

[python]view plain

newData,meanVal=zeroMean(dataMat)
covMat=np.cov(newData,rowvar=0)

numpy中的cov函數用於求協方差矩陣，參數rowvar很重要！若rowvar=0，說明傳入的數據一行代表一個樣本，若非0，說明傳入的數據一列代表一個樣本。因為newData每一行代表一個樣本，所以將rowvar設置為0。

covMat即所求的協方差矩陣。

（3）求特徵值、特徵矩陣

調用numpy中的線性代數模塊linalg中的eig函數，可以直接由covMat求得特徵值和特徵向量：

[python]view plain

eigVals,eigVects=np.linalg.eig(np.mat(covMat))

eigVals存放特徵值，行向量。

eigVects存放特徵向量，每一列帶別一個特徵向量。

特徵值和特徵向量是一一對應的

（4）保留主要的成分[即保留值比較大的前n個特徵]

第三步得到了特徵值向量eigVals，假設裡面有m個特徵值，我們可以對其排序，排在前面的n個特徵值所對應的特徵向量就是我們要保留的，它們組成了新的特徵空間的一組基n_eigVect。將零均值化後的數據乘以n_eigVect就可以得到降維後的數據。代碼如下：

[python]view plain

eigValIndice=np.argsort(eigVals)#對特徵值從小到大排序
n_eigValIndice=eigValIndice[-1:-(n+1):-1]#最大的n個特徵值的下標
n_eigVect=eigVects[:,n_eigValIndice]#最大的n個特徵值對應的特徵向量
lowDDataMat=newData*n_eigVect#低維特徵空間的數據
reconMat=(lowDDataMat*n_eigVect.T)+meanVal#重構數據
returnlowDDataMat,reconMat

代碼中有幾點要說明一下，首先argsort對特徵值是從小到大排序的，那麼最大的n個特徵值就排在後面，所以eigValIndice[-1:-(n+1):-1]就取出這個n個特徵值對應的下標。【python裡面，list[a:b:c]代表從下標a開始到b，步長為c。】

Ⅳ python sklearn里有kmeans演算法嗎

K-Means是常用的聚類演算法，與其他聚類演算法相比，其時間復雜度低，聚類的效果也還不錯，這里簡單介紹一下k-means演算法，下圖是一個手寫體數據集聚類的結果。
基本思想
k-means演算法需要事先指定簇的個數k，演算法開始隨機選擇k個記錄點作為中心點，然後遍歷整個數據集的各條記錄，將每條記錄歸到離它最近的中心點所在的簇中，之後以各個簇的記錄的均值中心點取代之前的中心點，然後不斷迭代，直到收斂，演算法描述如下：
上面說的收斂，可以看出兩方面，一是每條記錄所歸屬的簇不再變化，二是優化目標變化不大。演算法的時間復雜度是O(K*N*T)，k是中心點個數，N數據集的大小，T是迭代次數。
優化目標
k-means的損失函數是平方誤差：
RSSk=∑x∈ωk|x?u(ωk)|2
RSS=∑k=1KRSSk
其中$\omega _k$表示第k個簇，$u(\omega _k)$表示第k個簇的中心點，$RSS_k$是第k個簇的損失函數，$RSS$表示整體的損失函數。優化目標就是選擇恰當的記錄歸屬方案，使得整體的損失函數最小。
中心點的選擇
k-meams演算法的能夠保證收斂，但不能保證收斂於全局最優點，當初始中心點選取不好時，只能達到局部最優點，整個聚類的效果也會比較差。可以採用以下方法：k-means中心點
1、選擇彼此距離盡可能遠的那些點作為中心點；
2、先採用層次進行初步聚類輸出k個簇，以簇的中心點的作為k-means的中心點的輸入。
3、多次隨機選擇中心點訓練k-means，選擇效果最好的聚類結果
k值的選取
k-means的誤差函數有一個很大缺陷，就是隨著簇的個數增加，誤差函數趨近於0，最極端的情況是每個記錄各為一個單獨的簇，此時數據記錄的誤差為0，但是這樣聚類結果並不是我們想要的，可以引入結構風險對模型的復雜度進行懲罰：
K=mink[RSSmin(k)+λk]
$\lambda$是平衡訓練誤差與簇的個數的參數，但是現在的問題又變成了如何選取$\lambda$了，有研究[參考文獻1]指出，在數據集滿足高斯分布時，$\lambda=2m$，其中m是向量的維度。
另一種方法是按遞增的順序嘗試不同的k值，同時畫出其對應的誤差值，通過尋求拐點來找到一個較好的k值，詳情見下面的文本聚類的例子。
k-means文本聚類
我爬取了36KR的部分文章，共1456篇，分詞後使用sklearn進行k-means聚類。分詞後數據記錄如下：
使用TF-IDF進行特徵詞的選取，下圖是中心點的個數從3到80對應的誤差值的曲線：
從上圖中在k=10處出現一個較明顯的拐點，因此選擇k=10作為中心點的個數，下面是10個簇的數據集的個數。
{0: 152, 1: 239, 2: 142, 3: 61, 4: 119, 5: 44, 6: 71, 7: 394, 8: 141, 9: 93}
簇標簽生成
聚類完成後，我們需要一些標簽來描述簇，聚類完後，相當於每個類都用一個類標，這時候可以用TFIDF、互信息、卡方等方法來選取特徵詞作為標簽。關於卡方和互信息特徵提取可以看我之前的文章文本特徵選擇，下面是10個類的tfidf標簽結果。
Cluster 0: 商家商品物流品牌支付導購網站購物平台訂單
Cluster 1: 投資融資美元公司資本市場獲得國內中國去年
Cluster 2: 手機智能硬體設備電視運動數據功能健康使用
Cluster 3: 數據平台市場學生 app 移動信息公司醫生教育
Cluster 4: 企業招聘人才平台公司 it 移動網站安全信息
Cluster 5: 社交好友交友寵物功能活動朋友基於分享游戲
Cluster 6: 記賬理財貸款銀行金融 p2p 投資互聯網基金公司
Cluster 7: 任務協作企業銷售溝通工作項目管理工具成員
Cluster 8: 旅行旅遊酒店預訂信息城市投資開放 app 需求
Cluster 9: 視頻內容游戲音樂圖片照片廣告閱讀分享功能
實現代碼
#!--encoding=utf-8
from __future__ import print_function
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
def loadDataset():
'''導入文本數據集'''
f = open('36krout.txt','r')
dataset = []
lastPage = None
for line in f.readlines():
if '< title >' in line and '< / title >' in line:
if lastPage:
dataset.append(lastPage)
lastPage = line
else:
lastPage += line
if lastPage:
dataset.append(lastPage)
f.close()
return dataset
def transform(dataset,n_features=1000):
vectorizer = TfidfVectorizer(max_df=0.5, max_features=n_features, min_df=2,use_idf=True)
X = vectorizer.fit_transform(dataset)
return X,vectorizer
def train(X,vectorizer,true_k=10,minibatch = False,showLable = False):
#使用采樣數據還是原始數據訓練k-means，
if minibatch:
km = MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False)
else:
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=300, n_init=1,
verbose=False)
km.fit(X)
if showLable:
print("Top terms per cluster:")
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
print (vectorizer.get_stop_words())
for i in range(true_k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :10]:
print(' %s' % terms[ind], end='')
print()
result = list(km.predict(X))
print ('Cluster distribution:')
print (dict([(i, result.count(i)) for i in result]))
return -km.score(X)
def test():
'''測試選擇最優參數'''
dataset = loadDataset()
print("%d documents" % len(dataset))
X,vectorizer = transform(dataset,n_features=500)
true_ks = []
scores = []
for i in xrange(3,80,1):
score = train(X,vectorizer,true_k=i)/len(dataset)
print (i,score)
true_ks.append(i)
scores.append(score)
plt.figure(figsize=(8,4))
plt.plot(true_ks,scores,label="error",color="red",linewidth=1)
plt.xlabel("n_features")
plt.ylabel("error")
plt.legend()
plt.show()
def out():
'''在最優參數下輸出聚類結果'''
dataset = loadDataset()
X,vectorizer = transform(dataset,n_features=500)
score = train(X,vectorizer,true_k=10,showLable=True)/len(dataset)
print (score)
#test()
out()

閱讀全文

熱點內容

我的世界手機伺服器怎麼重開的圖發布：2025-03-23 04:18:37 瀏覽：378

sql寫存儲過程發布：2025-03-23 04:18:36 瀏覽：787

互感器電流的演算法發布：2025-03-23 04:03:58 瀏覽：750

抖音上為什麼說伺服器正在升級中發布：2025-03-23 03:51:21 瀏覽：34

編程自我學發布：2025-03-23 03:43:26 瀏覽：995

乳膠枕頭壓縮發布：2025-03-23 03:42:35 瀏覽：570

請帖html源碼發布：2025-03-23 03:38:18 瀏覽：764

雲伺服器視頻發布：2025-03-23 03:38:15 瀏覽：115

淄博java培訓發布：2025-03-23 03:28:32 瀏覽：26

sql從兩個表中查詢發布：2025-03-23 03:28:24 瀏覽：136

python的argsort

與python的argsort相關的資訊