pythonnumpymat
㈠ python數據分析用什麼軟體
Python是數據處理常用工具,可以處理數量級從幾K至幾T不等的數據,具有較高的開發效率和可維護性,還具有較強的通用性和跨平台性,這里就為大家分享幾個不錯的數據分析工具。Python數據分析需要安裝的第三方擴展庫有:Numpy、Pandas、SciPy、Matplotpb、Scikit-Learn、Keras、Gensim、Scrapy等,以下是第三方擴展庫的簡要介紹:(推薦學習:Python視頻教程)
1. Pandas
Pandas是Python強大、靈活的數據分析和探索工具,包含Series、DataFrame等高級數據結構和工具,安裝Pandas可使Python中處理數據非常快速和簡單。
Pandas是Python的一個數據分析包,Pandas最初被用作金融數據分析工具而開發出來,因此Pandas為時間序列分析提供了很好的支持。
Pandas是為了解決數據分析任務而創建的,Pandas納入了大量的庫和一些標準的數據模型,提供了高效的操作大型數據集所需要的工具。Pandas提供了大量是我們快速便捷的處理數據的函數和方法。Pandas包含了高級數據結構,以及讓數據分析變得快速、簡單的工具。它建立在Numpy之上,使得Numpy應用變得簡單。
帶有坐標軸的數據結構,支持自動或明確的數據對齊。這能防止由於數據結構沒有對齊,以及處理不同來源、採用不同索引的數據而產生的常見錯誤。
使用Pandas更容易處理丟失數據。合並流行資料庫(如:基於SQL的資料庫)Pandas是進行數據清晰/整理的最好工具。
2. Numpy
Python沒有提供數組功能,Numpy可以提供數組支持以及相應的高效處理函數,是Python數據分析的基礎,也是SciPy、Pandas等數據處理和科學計算庫最基本的函數功能庫,且其數據類型對Python數據分析十分有用。
Numpy提供了兩種基本的對象:ndarray和ufunc。ndarray是存儲單一數據類型的多維數組,而ufunc是能夠對數組進行處理的函數。Numpy的功能:
N維數組,一種快速、高效使用內存的多維數組,他提供矢量化數學運算。可以不需要使用循環,就能對整個數組內的數據進行標准數學運算。非常便於傳送數據到用低級語言編寫(CC++)的外部庫,也便於外部庫以Numpy數組形式返回數據。
Numpy不提供高級數據分析功能,但可以更加深刻的理解Numpy數組和面向數組的計算。
3. Matplotpb
Matplotpb是強大的數據可視化工具和作圖庫,是主要用於繪制數據圖表的Python庫,提供了繪制各類可視化圖形的命令字型檔、簡單的介面,可以方便用戶輕松掌握圖形的格式,繪制各類可視化圖形。
Matplotpb是Python的一個可視化模塊,他能方便的只做線條圖、餅圖、柱狀圖以及其他專業圖形。 使用Matplotpb,可以定製所做圖表的任一方面。他支持所有操作系統下不同的GUI後端,並且可以將圖形輸出為常見的矢量圖和圖形測試,如PDF SVG JPG PNG BMP GIF.通過數據繪圖,我們可以將枯燥的數字轉化成人們容易接收的圖表。 Matplotpb是基於Numpy的一套Python包,這個包提供了吩咐的數據繪圖工具,主要用於繪制一些統計圖形。 Matplotpb有一套允許定製各種屬性的默認設置,可以控制Matplotpb中的每一個默認屬性:圖像大小、每英寸點數、線寬、色彩和樣式、子圖、坐標軸、網個屬性、文字和文字屬性。
4. SciPy
SciPy是一組專門解決科學計算中各種標准問題域的包的集合,包含的功能有最優化、線性代數、積分、插值、擬合、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算等,這些對數據分析和挖掘十分有用。
Scipy是一款方便、易於使用、專門為科學和工程設計的Python包,它包括統計、優化、整合、線性代數模塊、傅里葉變換、信號和圖像處理、常微分方程求解器等。Scipy依賴於Numpy,並提供許多對用戶友好的和有效的數值常式,如數值積分和優化。
Python有著像Matlab一樣強大的數值計算工具包Numpy;有著繪圖工具包Matplotpb;有著科學計算工具包Scipy。 Python能直接處理數據,而Pandas幾乎可以像SQL那樣對數據進行控制。Matplotpb能夠對數據和記過進行可視化,快速理解數據。Scikit-Learn提供了機器學習演算法的支持,Theano提供了升讀學習框架(還可以使用CPU加速)。
5. Keras
Keras是深度學習庫,人工神經網路和深度學習模型,基於Theano之上,依賴於Numpy和Scipy,利用它可以搭建普通的神經網路和各種深度學習模型,如語言處理、圖像識別、自編碼器、循環神經網路、遞歸審計網路、卷積神經網路等。
6. Scikit-Learn
Scikit-Learn是Python常用的機器學習工具包,提供了完善的機器學習工具箱,支持數據預處理、分類、回歸、聚類、預測和模型分析等強大機器學習庫,其依賴於Numpy、Scipy和Matplotpb等。
Scikit-Learn是基於Python機器學習的模塊,基於BSD開源許可證。 Scikit-Learn的安裝需要Numpy S Matplotpb等模塊,Scikit-Learn的主要功能分為六個部分,分類、回歸、聚類、數據降維、模型選擇、數據預處理。
Scikit-Learn自帶一些經典的數據集,比如用於分類的iris和digits數據集,還有用於回歸分析的boston house prices數據集。該數據集是一種字典結構,數據存儲在.data成員中,輸出標簽存儲在.target成員中。Scikit-Learn建立在Scipy之上,提供了一套常用的機器學習演算法,通過一個統一的介面來使用,Scikit-Learn有助於在數據集上實現流行的演算法。 Scikit-Learn還有一些庫,比如:用於自然語言處理的Nltk、用於網站數據抓取的Scrappy、用於網路挖掘的Pattern、用於深度學習的Theano等。
7. Scrapy
Scrapy是專門為爬蟲而生的工具,具有URL讀取、HTML解析、存儲數據等功能,可以使用Twisted非同步網路庫來處理網路通訊,架構清晰,且包含了各種中間件介面,可以靈活的完成各種需求。
8. Gensim
Gensim是用來做文本主題模型的庫,常用於處理語言方面的任務,支持TF-IDF、LSA、LDA和Word2Vec在內的多種主題模型演算法,支持流式訓練,並提供了諸如相似度計算、信息檢索等一些常用任務的API介面。
更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於python數據分析用什麼軟體的詳細內容希望對大家有所幫助,更多有關python教程請關注環球青藤其它相關文章!
㈡ 如何讀取mat文件 python
一、mat文件
mat數據格式是Matlab的數據存儲的標准格式。在Matlab中主要使用load()函數導入一個mat文件,使用save()函數保存一個mat文件。對於文件
二、python中讀取mat文件
在python中可以使用scipy.io中的函數loadmat()讀取mat文件,函數savemat保存文件。
1、讀取文件
如上例:
#coding:UTF-8
import scipy.io as scio
dataFile = 'E://data.mat'
data = scio.loadmat(dataFile)
注意,讀取出來的data是字典格式,可以通過函數type(data)查看。
print type(data)
結果顯示
<type 'dict'>
找到mat文件中的矩陣:
print data['A']
結果顯示
[[ 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0.
。。。。。。。。。。。
0. 0. 0. 0. 0. 0. 0.
0.36470588 0.90196078 0.99215686 0.99607843 0.99215686 0.99215686
0.78431373 0.0627451 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0.
。。。。。。。。。。。。
0.94117647 0.22745098 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0.30196078
。。。。。。。
0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. ]]
格式為:
<type 'numpy.ndarray'>
即為numpy中的矩陣格式。
2、保存文件
將這里的data['A']矩陣重新保存到一個新的文件dataNew.mat中:
dataNew = 'E://dataNew.mat'
scio.savemat(dataNew, {'A':data['A']})
㈢ Python,的numpy模塊中有沒有 階乘函數
有階乘函數,Numpy中,mat必須是2維的,但是array可以是多維的(1D,2D,3D····ND). Matrix是Array的一個小的分支,包含於Array。所以matrix 擁有array的所有特性。
在numpy中matrix的主要優勢是:相對簡單的乘法運算符號。例如,a和b是兩個matrices,那麼a*b,就是矩陣積。
若a=mat([1,2,3])是矩陣,則 a.A 則轉換成了數組,反之,a.M則轉換成了矩陣。
(3)pythonnumpymat擴展閱讀:
常用的Numpy運算:
取矩陣中的某一行ss[1,:]或該行的某兩列ss[1,0:2]
將數組轉換成矩陣randMat=mat(random.rand(4,4))
矩陣求逆randMat.I
單位陣eye(4)
零矩陣zeros((x,y))建立x行y列的零矩陣。
最大值和最小值a.max(),a.min(),而a.max(0)表示按列選取每列的最大值。最大/小元素的下標a.argmax(),a.argmin()
#作為方法x.sum() #所有元素相加x.sum(axis=0) #按列相加x.sum(axis=1) #按行相加#作為函數sum(a,axis=0)ss.mean()
mean(a,axis=0(或1)) #按列或行求均值var(a)var(a,axis=0(或1)) #按列或行求方差。
std(a)std(a,axis=0(或1)) #按列或行求標准差ss.T或ss.transpose() #轉置。
㈣ python中稀疏矩陣的怎麼用numpy處理
NumPy是一個關於矩陣運算的庫,熟悉Matlab的都應該清楚,這個庫就是讓python能夠進行矩陣話的操作,而不用去寫循環操作。
下面對numpy中的操作進行總結。
numpy包含兩種基本的數據類型:數組和矩陣。
數組(Arrays)
>>> from numpy import *>>> a1=array([1,1,1]) #定義一個數組>>> a2=array([2,2,2])>>> a1+a2 #對於元素相加array([3, 3, 3])>>> a1*2 #乘一個數array([2, 2, 2])##>>> a1=array([1,2,3])>>> a1
array([1, 2, 3])>>> a1**3 #表示對數組中的每個數做平方array([ 1, 8, 27])##取值,注意的是它是以0為開始坐標,不matlab不同>>> a1[1]2##定義多維數組>>> a3=array([[1,2,3],[4,5,6]])>>> a3
array([[1, 2, 3],
[4, 5, 6]])>>> a3[0] #取出第一行的數據array([1, 2, 3])>>> a3[0,0] #第一行第一個數據1>>> a3[0][0] #也可用這種方式1##數組點乘,相當於matlab點乘操作>>> a1=array([1,2,3])>>> a2=array([4,5,6])>>> a1*a2
array([ 4, 10, 18])
Numpy有許多的創建數組的函數:
import numpy as np
a = np.zeros((2,2)) # Create an array of all zerosprint a # Prints "[[ 0. 0.]
# [ 0. 0.]]"b = np.ones((1,2)) # Create an array of all onesprint b # Prints "[[ 1. 1.]]"c = np.full((2,2), 7) # Create a constant arrayprint c # Prints "[[ 7. 7.]
# [ 7. 7.]]"d = np.eye(2) # Create a 2x2 identity matrixprint d # Prints "[[ 1. 0.]
# [ 0. 1.]]"e = np.random.random((2,2)) # Create an array filled with random valuesprint e # Might print "[[ 0.91940167 0.08143941]
# [ 0.68744134 0.87236687]]"
數組索引(Array indexing)
矩陣
矩陣的操作與Matlab語言有很多的相關性。
#創建矩陣
>>> m=mat([1,2,3])
>>> m
matrix([[1, 2, 3]])
#取值
>>> m[0] #取一行
matrix([[1, 2, 3]])
>>> m[0,1] #第一行,第2個數據2>>> m[0][1] #注意不能像數組那樣取值了
Traceback (most recent call last):
File "<stdin>", line 1, in <mole>
File "/usr/lib64/python2.7/site-packages/numpy/matrixlib/defmatrix.py", line 305, in __getitem__
out = N.ndarray.__getitem__(self, index)
IndexError: index 1 is out of bounds for axis 0 with size 1#將Python的列表轉換成NumPy的矩陣
>>> list=[1,2,3]
>>> mat(list)
matrix([[1, 2, 3]])
#矩陣相乘
>>> m1=mat([1,2,3]) #1行3列
>>> m2=mat([4,5,6])
>>> m1*m2.T #注意左列與右行相等 m2.T為轉置操作
matrix([[32]])
>>> multiply(m1,m2) #執行點乘操作,要使用函數,特別注意
matrix([[ 4, 10, 18]])
#排序
>>> m=mat([[2,5,1],[4,6,2]]) #創建2行3列矩陣
>>> m
matrix([[2, 5, 1],
[4, 6, 2]])
>>> m.sort() #對每一行進行排序
>>> m
matrix([[1, 2, 5],
[2, 4, 6]])
>>> m.shape #獲得矩陣的行列數
(2, 3)
>>> m.shape[0] #獲得矩陣的行數2>>> m.shape[1] #獲得矩陣的列數3#索引取值
>>> m[1,:] #取得第一行的所有元素
matrix([[2, 4, 6]])
>>> m[1,0:1] #第一行第0個元素,注意左閉右開
matrix([[2]])
>>> m[1,0:3]
matrix([[2, 4, 6]])
>>> m[1,0:2]
matrix([[2, 4]])35363738394
擴展矩陣函數tile()
例如,要計算[0,0,0]到一個多維矩陣中每個點的距離,則要將[0,0,0]進行擴展。
tile(inX, (i,j)) ;i是擴展個數,j是擴展長度
實例如下:
>>>x=mat([0,0,0])
>>> x
matrix([[0, 0, 0]])
>>> tile(x,(3,1)) #即將x擴展3個,j=1,表示其列數不變
matrix([[0, 0, 0],
[0, 0, 0],
[0, 0, 0]])
>>> tile(x,(2,2)) #x擴展2次,j=2,橫向擴展
matrix([[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0]])1234567891011121314
㈤ python 怎麼實現矩陣運算
1.numpy的導入和使用
data1=mat(zeros((
)))
#創建一個3*3的零矩陣,矩陣這里zeros函數的參數是一個tuple類型(3,3)
data2=mat(ones((
)))
#創建一個2*4的1矩陣,默認是浮點型的數據,如果需要時int類型,可以使用dtype=int
data3=mat(random.rand(
))
#這里的random模塊使用的是numpy中的random模塊,random.rand(2,2)創建的是一個二維數組,需要將其轉換成#matrix
data4=mat(random.randint(
10
,size=(
)))
#生成一個3*3的0-10之間的隨機整數矩陣,如果需要指定下界則可以多加一個參數
data5=mat(random.randint(
,size=(
))
#產生一個2-8之間的隨機整數矩陣
data6=mat(eye(
,dtype=
int
))
#產生一個2*2的對角矩陣
a1=[
]; a2=mat(diag(a1))
#生成一個對角線為1、2、3的對角矩陣