pythonweka
⑴ 如何用python調用weka函數
Example:
def gender_features(name):
features = {}
for letter in 'abcdefghijklmnopqrstuvwxyz':
features['count(%s)' % letter] = name.lower().count(letter)
features['has(%s)' % letter] = letter in name.lower()
features['startswith(%s)' % letter] = (letter==name[0].lower())
features['endswith(%s)' % letter] = (letter==name[-1].lower())
return features
if __name__ == "__main__":
from nltk.corpus import names
import random
names = ([(name, 'male') for name in names.words('male.txt')] +[(name, 'female') for name innames.words('female.txt')])
random.shuffle(names)
featuresets = [(gender_features(n), g) for (n,g) in names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = WekaClassifier.train(r'c:/name.model',train_set,'weka.classifiers.functions.Logistic')
print nltk.classify.accuracy(classifier, test_set)
ls = ["Alex","Neo","vivian","tom"]
result = classifier.batch_classify([gender_features(name) for name in ls])
print result
⑵ 數據挖掘常用的軟體有哪些
1、Rapid Miner
Rapid Miner是一個數據科學軟體平台,為數據准備、機器學習、深度學習、文本挖掘和預測分析提供一種集成環境。它是領先的數據挖掘開源系統之一。該程序完全用java編程語言編寫。該程序提供了一個選項,以便用戶試用大量可任意嵌套的操作符,這些操作符在XML文件中有詳細說明,可由Rapid Miner的圖形用戶界面來構建。
2、Orange
Orange是一個開源數據可視化、機器學習和數據挖掘工具包。它有一個可視化編程前端,可用於探索性數據分析和互動式數據可視化。Orange是一個基於組件的可視化編程軟體包,用於數據可視化、機器學習、數據挖掘和數據分析。Orange組件稱為窗口組件,范圍廣泛:從簡單的數據可視化、子集選擇和預處理,到學習演算法和預測建模的評估,不一而足。Orange的可視化編程通過界面來進行,其中工作流程通過連接預定義或用戶設計的窗口組件來創建,而高級用戶可以將Orange用作Python庫,以便操縱數據和更改窗口組件。
3、Kaggle
Kaggle是世界上數據科學家和機器學習者社區。Kaggle以開設機器學習競賽起家,但現在逐漸變成基於公共雲的數據科學平台。Kaggle是一個平台,有助於解決難題、招募強大的團隊並宣傳數據科學的力量。
4、Weka
懷卡托知識分析環境(Weka)是紐西蘭懷卡託大學開發的一套機器學習軟體。該軟體用Java編寫。它含有一系列面向數據分析和預測建模的可視化工具和演算法,附帶圖形用戶界面。Weka支持幾種標准數據挖掘任務,更具體地說是指數據預處理、聚類、分類、回歸、可視化和特徵選擇。
關於數據挖掘常用的軟體有哪些,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑶ 如何在python程序中調用weka的分類器
這種語言具有非常簡捷而清晰的語法特點,適合完成各種高層任務,幾乎可以在所有的操作系統中運行。目前,基於這種語言的相關技術正在飛速的發展,用戶數量急劇擴大,相關的資源非常多。下面是一個在標准輸出設備上輸出Hello World的簡單程序,這...
⑷ 研究生必備科研工具都有哪些它們的本質作用是什麼
研究生必備科研工具都有哪些?它們的本質作用是什麼?今天想跟大家分享的三個科研工具,分別是用一下查文獻,寫論文降低重復率以及科研繪圖,這三種小編都是自己用習慣了的,也有剛被同學安利的,總之就是希望推薦的這些有適合你的,有你能用上的。
那最後,對於數據分析的過程,往往python是更好的選擇,那除了python之外,同樣也有一個非常簡單易用的界面,更友好的集成性工具操作的軟體,那就是Weka。這個軟體,集成了大部分的數據挖掘和數據分析的過程,通過一些簡單的簡選操作就可以完成。並不需要使用拍子的編程也是非常好,用的一個工具,如果大家剛剛接觸數據挖掘,可以通過這個軟體來進行一些分析,來幫助你更好的了解數據分析和數據挖掘的過程。以上,就是我給大家推薦的五類研究生必備或者必備的軟體工具,尤其是對於最後實證分析類的軟體,都需要大家去花時間來進行學習和實踐才可以掌握和應用。
⑸ 是用python學數據挖掘好,還是用java學weka的開發好
你熟悉python 就用 python,
你熟悉java 就學weka, weka 一個軟體連續開發20多年,及其成熟而且做到極致,很多都已經能自動化,其擴展版本甚至演算法都能自己選擇,極致到完全不懂的人都可以用。
weka有損自以為高深的人的威嚴和神秘感。很多人特別喜歡反復找輪子,寧願選擇用匕首去殺敵,即使匕首旁邊有一支子彈上了膛的AK47,也會選擇視而不見。當然如果你要做一些復雜的應用,熟悉java是必須的, 另python 也可以調用weka (好像叫jython)
⑹ 如何在WEKA中設置libsvm的路徑
包解壓C盤:C:\libsvm-3.182.
要用libsvm自帶腳本grid.pyeasy.py,需要官網載繪圖工具gnuplot,解壓c盤.進入c:\libsvm\tools目錄用文本編輯器(記事本edit都)修改grid.pyeasy.py兩文件找其關於gnuplot路徑項根據實際路徑進行修改並保存
python與libsvm連接(參考SVM習筆記(2)LIBSVMpython使用)
1.打IDLE(pythonGUI)輸入>>>importsys>>>sys.version
2.python32位現字元:
(default,Apr102012,23:31:26)[MSCv.150032bit(Intel)]』
候LIBSVMpython介面設置非簡單libsvm-3.16文件夾windows文件夾找態鏈接庫libsvm.dll其添加系統目錄`C:\WINDOWS\system32\』即python使用libsvm
wk_ad_begin({pid : 21});wk_ad_after(21, function(){$('.ad-hidden').hide();}, function(){$('.ad-hidden').show();});
3.執行例
importos
os.chdir('C:\libsvm-3.18\python')#請根據實際路徑修改
fromsvmutilimport*
y,x=svm_read_problem('../heart_scale')#讀取自帶數據
m=svm_train(y[:200],x[:200],'-c4')
p_label,p_acc,p_val=svm_predict(y[200:],x[200:],m)
##現結應該確安裝optimizationfinished,#iter=257nu=0.351161
obj=-225.628984,rho=0.636110nSV=91,nBSV=49
TotalnSV=91
Accuracy=84.2857%(59/70)(classification)
F
⑺ 北大青鳥設計培訓:八個最佳的數據中心開源挖掘工具
數據挖掘,又稱為資料探勘、數據采礦。
它是資料庫知識發現(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟,是一個挖掘和分析大量數據並從中提取信息的過程。
其中一些應用包括市場細分-如識別客戶從特定品牌購買特定產品的特徵,欺詐檢測-識別可能導致在線欺詐的交易模式等。
在本文中,長沙電腦培訓http://www.kmbdqn.cn/整理了進行數據挖掘的8個最佳開源工具。
1、WekaWEKA作為一個公開的數據挖掘工作平台,集合了大量能承擔數據挖掘任務的機器學習演算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的互動式界面上的可視化。
2、RapidMinerRapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。
它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
3、OrangeOrange是一個基於組件的數據挖掘和機器學習軟體套裝,它的功能即友好,又很強大,快速而又多功能的可視化編程前端,以便瀏覽數據分析和可視化,基綁定了Python以進行腳本開發。
它包含了完整的一系列的組件以進行數據預處理,並提供了數據帳目,過渡,建模,模式評估和勘探的功能。
其由C++和Python開發,它的圖形庫是由跨平台的Qt框架開發。
4、KnimeKNIME(KonstanzInformationMiner)是一個用戶友好,智能的,並有豐演的開源的數據集成,數據處理,數據分析和數據勘探平台。
5、jHepWorkjHepWork是一套功能完整的面向對象科學數據分析框架。
Jython宏是用來展示一維和二維直方圖的數據。
該程序包括許多工具,可以用來和二維三維的科學圖形進行互動。
6、ApacheMahoutApacheMahout是ApacheSoftwareFoundation(ASF)開發的一個全新的開源項目,其主要目標是創建一些可伸縮的機器學習演算法,供開發人員在Apache在許可下免費使用。
該項目已經發展到了它的最二個年頭,目前只有一個公共發行版。
Mahout包含許多實現,包括集群、分類、CP和進化程序。
此外,通過使用ApacheHadoop庫,Mahout可以有效地擴展到雲中。
7、ELKIELKI(EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures)主要用來聚類和找離群點。
ELKI是類似於weka的數據挖掘平台,用java編寫,有GUI圖形界面。
可以用來尋找離群點。
⑻ 數據分析一般用python還是R還是Java
企業日常數據分析:
1、如果是離線數據python會靈活一點(如設備的運維數據.), 但如果是實現數據還是用java會快一點(如ERP, MES.自動化.)
2、Java跑得更快,在WEKA上做數據分析會更「舒服」。
但python更加全面,適用性更廣。
3、做統計挖掘演算法分析的話用R,如果是其他用途建議學Python。適用范圍廣啊!
以上是幾種建議方法,各有各的特點!
⑼ 為什麼有了SAS,WEKA等功能強大的數據分析挖掘軟體,還需要R,PYTHON
1.R是用於統計分析和圖形化的計算機語言及分析工具;
2.Weka可能是名氣最大的開源機器學習和數據挖掘軟體,但用起來並不方便,界面也簡單了點;
3.Tanagra 是使用圖形界面的數據挖掘軟體;
4.RapidMiner現在流行的勢頭在上升,但它的操作方式和商用軟體差別較大,不支持分析流程圖的方式,當包含的運算符比較多的時候就不容易查看了;
5.KNIME和Orange看起來都不錯,Orange界面看上去很清爽,但我發現它不支持中 文。推薦KNIME,同時安裝Weka和R擴展包。
對於普通用戶可以選 用界面友好易於使用的軟體,對於希望從事演算法開發的用戶則可以根據軟體開發工具不同(Java、R、C++、Python等)來選擇相應的軟體。