聚類分析python

發布時間: 2022-05-24 06:59:18

① 如何用python對文本進行聚類

實現原理：
首先從Tourist_spots_5A_BD.txt中讀取景點信息，然後通過調用無界面瀏覽器PhantomJS（Firefox可替代）訪問網路鏈接"http://ke..com/"，通過Selenium獲取輸入對話框ID，輸入關鍵詞如"故宮"，再訪問該網路頁面。最後通過分析DOM樹結構獲取摘要的ID並獲取其值。核心代碼如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多應用於自動化測試，推薦Python爬蟲使用scrapy等開源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名稱: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解決方法: 使用Selenium和Phantomjs
print u'實體名稱: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'換行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宮' in entityName: #else add a '?'
entityName = u'北京故宮'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

② python聚類分析可以用字元串嗎

可以用，不過不建議。在Python中，String對象是定長對象，一旦創建，長度就不可變化，若是使用+號連接兩個字元串，則會新開辟一段長度總和長度的內存，再將兩個字元串memcpy進去。如果要連接N個String對象，則要進行N-1次內存申請和拷貝。

③ python代碼如何應用系統聚類和K-means聚類法進行聚類分析然後選擇變數，建立適當的模型

-Means聚類演算法
k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。

隨機選擇k個點作為初始的聚類中心。
對於剩下的點，根據其與聚類中心的距離，將其歸入最近的簇。
對每個簇，計算所有點的均值作為新的聚類中心。
重復2，3直到聚類中心不再發生改變

Figure 1

K-means的應用
數據介紹：
現有1999年全國31個省份城鎮居民家庭平均每人全年消費性支出的八大主要變數數據，這八大變數分別是：食品、衣著、家庭設備用品及服務、醫療保健、交通和通訊、娛樂教育文化服務、居住以及雜項商品和服務。利用已有數據，對31個省份進行聚類。

實驗目的：
通過聚類，了解1999年各個省份的消費水平在國內的情況。

技術路線：
sklearn.cluster.Kmeans

數據實例：

④ python數據挖掘工具包有什麼優缺點

【導讀】python數據挖掘工具包就是scikit-learn，scikit-learn是一個基於NumPy, SciPy,
Matplotlib的開源機器學習工具包，主要涵蓋分類，回歸和聚類演算法，例如SVM，
邏輯回歸，樸素貝葉斯，隨機森林，k-means等演算法，代碼和文檔都非常不錯，在許多Python項目中都有應用。

優點：

1、文檔齊全：官方文檔齊全，更新及時。

2、介面易用：針對所有演算法提供了一致的介面調用規則，不管是KNN、K-Means還是PCA.

3、演算法全面：涵蓋主流機器學習任務的演算法，包括回歸演算法、分類演算法、聚類分析、數據降維處理等。

缺點：

缺點是scikit-learn不支持分布式計算，不適合用來處理超大型數據。

Pandas是一個強大的時間序列數據處理工具包，Pandas是基於Numpy構建的，比Numpy的使用更簡單。最初開發的目的是為了分析財經數據，現在已經廣泛應用在Python數據分析領域中。Pandas，最基礎的數據結構是Series，用它來表達一行數據，可以理解為一維的數組。另一個關鍵的數據結構為DataFrame，它表示的是二維數組

Pandas是基於NumPy和Matplotlib開發的，主要用於數據分析和數據可視化，它的數據結構DataFrame和R語言里的data.frame很像，特別是對於時間序列數據有自己的一套分析機制。有一本書《Python
for Data Analysis》，作者是Pandas的主力開發，依次介紹了iPython, NumPy,
Pandas里的相關功能，數據可視化，數據清洗和加工，時間數據處理等，案例包括金融股票數據挖掘等，相當不錯。

Mlpy是基於NumPy/SciPy的Python機器學習模塊，它是Cython的擴展應用。

關於python數據挖掘工具包的優缺點，就給大家介紹到這里了，scikit-learn提供了一致的調用介面。它基於Numpy和scipy等Python數值計算庫，提供了高效的演算法實現，所以想要學習python，以上的內容得學會。

⑤ python怎麼做數據分析

無論是自學還是怎麼的，記住自己學習Python的目標——從事數據科學，而非Python軟體開發。所以，Python入門的方向，應該是掌握Python所有的相關概念、基礎知識，為後續Python庫的學習打基礎。

需要掌握的數據分析基本庫有

Numpy

Numpy是Python科學計算的基礎包。

Pandas

它提供了復雜精細的索引功能，能更加便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。因為數據操作、准備、清洗是數據分析最重要的技能，所以Pandas也是學習的重點。

Matplotlib

Matplotlib是最流行的用於繪制圖表和其它二維數據可視化的Python庫，它非常適合創建出版物上用的圖表。

Scikit-learn

Scikit-learn是Python的通用機器學習工具包。它的子模塊包括分類、回歸、聚類、降維、選型、預處理，對於Python成為高效數據科學編程語言起到了關鍵作用。

只需要學習Python入門的知識以及4個數據分析相關的庫，就能上手使用Python進行數據分析了。另外如果需要獲取外部網站數據的話，還需要學習爬蟲。

⑥ python學習機器學習需要哪些功底，零基礎可以嗎

零基礎一樣學的，畢竟腳本語言，不要用C語言的思想來學，雖然有些語法是借鑒過來的。

學習python可以從幾個方面入手：
1學習基本的語法，包括數據結構（數組，字典等）。了解數據類型，以及他的類型轉換。
2學會流程式控制制---選擇，循環。
3函數，模塊，熟練使用常用的內建函數。
4class類
5多線程
前四個都熟練了，那麼你已經掌握了python的基礎應用了，第五個也會了，你就可以開始利用它做一些項目了。

⑦ python數據做聚類分析，結果的圖怎麼在二維平面表示出來

python中用pdf_multivariate求解多維密度分布，然後用plot_surface畫三維曲面圖；
另外用matlab也！

⑧ 怎麼用python進行聚類分析

、K均值聚類K-Means演算法思想簡單，效果卻很好，是最有名的聚類演算法。聚類演算法的步驟如下：1：初始化K個樣本作為初始聚類中心；2：計算每個樣本點到K個中心的距離，選擇最近的中心作為其分類，直到所有樣本點分類完畢；3：分別計算K個類中所有樣本的質心，作為新的中心點，完成一輪迭代。通常的迭代結束條件為新的質心與之前的質心偏移值小於一

⑨ python聚類分析需要多長時間

有沒有編程基礎？如果以前學過其他語言，底子比較好，那麼從開始學Python到寫出一個最簡單的爬蟲幾天就可以搞定。如果沒有編程基礎，對普通人來說需要的時間就長了，光是學Python就很費時間，因為要打基矗

⑩ python對數據進行聚類怎麼顯示數據分類

將其整理成數據集為：
[ [1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"] ]
演算法過程：

1、計算原始的信息熵。
2、依次計算數據集中每個樣本的每個特徵的信息熵。
3、比較不同特徵信息熵的大小，選出信息熵最大的特徵值並輸出。
運行結果：
col : 0 curInfoGain : 2.37744375108 baseInfoGain : 0.0
col : 1 curInfoGain : 1.37744375108 baseInfoGain : 2.37744375108
bestInfoGain : 2.37744375108 bestFeature: 0
結果分析：
說明按照第一列，即有無喉結這個特徵來進行分類的效果更好。
思考：
1、能否利用決策樹演算法，將樣本最終的分類結果進行輸出？如樣本1,2,3屬於男性，4屬於女性。

2、示常式序生成的決策樹只有一層，當特徵量增多的時候，如何生成具有多層結構的決策樹？
3、如何評判分類結果的好壞？
在下一篇文章中，我將主要對以上三個問題進行分析和解答。如果您也感興趣，歡迎您訂閱我的文章，也可以在下方進行評論，如果有疑問或認為不對的地方，您也可以留言，我將積極與您進行解答。
完整代碼如下：
from math import log
"""
計算信息熵
"""
def calcEntropy(dataset):
diclabel = {} ## 標簽字典，用於記錄每個分類標簽出現的次數
for record in dataset:
label = record[-1]
if label not in diclabel.keys():
diclabel[label] = 0
diclabel[label] += 1
### 計算熵
entropy = 0.0
cnt = len(dataset)
for label in diclabel.keys():
prob = float(1.0 * diclabel[label]/cnt)
entropy -= prob * log(prob,2)
return entropy
def initDataSet():
dataset = [[1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"]]
label = ["male","female"]
return dataset,label
#### 拆分dataset ,根據指定的過濾選項值，去掉指定的列形成一個新的數據集
def splitDataset(dataset , col, value):
retset = [] ## 拆分後的數據集
for record in dataset:
if record[col] == value :
recedFeatVec = record[:col]
recedFeatVec.extend(record[col+1:]) ### 將指定的列剔除
retset.append(recedFeatVec) ### 將新形成的特徵值列表追加到返回的列表中
return retset
### 找出信息熵增益最大的特徵值
### 參數：
### dataset : 原始的數據集
def findBestFeature(dataset):
numFeatures = len(dataset[0]) - 1 ### 特徵值的個數
baseEntropy = calcEntropy(dataset) ### 計算原始數據集的熵
baseInfoGain = 0.0 ### 初始信息增益
bestFeature = -1 ### 初始的最優分類特徵值索引
### 計算每個特徵值的熵
for col in range(numFeatures):
features = [record[col] for record in dataset] ### 提取每一列的特徵向量如此處col= 0 ，則features = [1,1,0,0]
uniqueFeat = set(features)
curInfoGain = 0 ### 根據每一列進行拆分，所獲得的信息增益
for featVal in uniqueFeat:
subDataset = splitDataset(dataset,col,featVal) ### 根據col列的featVal特徵值來對數據集進行劃分
prob = 1.0 * len(subDataset)/numFeatures ### 計運算元特徵數據集所佔比例
curInfoGain += prob * calcEntropy(subDataset) ### 計算col列的特徵值featVal所產生的信息增益
# print "col : " ,col , " featVal : " , featVal , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
print "col : " ,col , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
if curInfoGain > baseInfoGain:
baseInfoGain = curInfoGain
bestFeature = col
return baseInfoGain,bestFeature ### 輸出最大的信息增益，以獲得該增益的列
dataset,label = initDataSet()
infogain , bestFeature = findBestFeature(dataset)
print "bestInfoGain :" , infogain, " bestFeature:",bestFeature

閱讀全文

熱點內容

雲原生伺服器發布：2025-02-13 10:55:34 瀏覽：826

linuxip命令查看ip 發布：2025-02-13 10:49:45 瀏覽：420

java基礎應用發布：2025-02-13 10:44:53 瀏覽：710

linux內核搶占發布：2025-02-13 10:36:32 瀏覽：889

家裝公司源碼發布：2025-02-13 10:35:35 瀏覽：48

aspnet更新資料庫發布：2025-02-13 10:35:34 瀏覽：384

海爾壓縮機不工作發布：2025-02-13 10:15:32 瀏覽：223

才兒坊編程發布：2025-02-13 10:09:58 瀏覽：729

手機存儲速度測試發布：2025-02-13 10:09:58 瀏覽：368

什麼是安卓客戶端開發發布：2025-02-13 10:07:48 瀏覽：614

聚類分析python

Numpy

Pandas

Matplotlib

Scikit-learn

與聚類分析python相關的資訊