weka編程
⑴ 15 個開源的頂級人工智慧工具
斯坦福的專家在人工智慧報告中得出的結論:"越來越強大的人工智慧應用,可能會對我們的 社會 和經濟產生深遠的積極影響,這將出現在從現在到2030年的時間段里。"
以下這些開源人工智慧應用都處於人工智慧研究的最前沿。
1.Caffe
它是由賈揚清在加州大學伯克利分校的讀博時創造的,Caffe是一個基於表達體系結構和可擴展代碼的深度學習框架。使它聲名鵲起的是它的速度,這讓它受到研究人員和企業用戶的歡迎。根據其網站所言,它可以在一天之內只用一個NVIDIA K40 GPU處理6000萬多個圖像。它是由伯克利視野和學習中心(BVLC)管理的,並且由NVIDIA和亞馬遜等公司資助來支持它的發展。
2. CNTK
它是計算機網路工具包(Computational Network Tookit)的縮寫,CNTK是一個微軟的開源人工智慧工具。不論是在單個CPU、單個GPU、多個GPU或是擁有多個GPU的多台機器上它都有優異的表現。微軟主要用它做語音識別的研究,但是它在機器翻譯、圖像識別、圖像字幕、文本處理、語言理解和語言建模方面都有著良好的應用。
3.Deeplearning4j
Deeplearning4j是一個java虛擬機(JVM)的開源深度學習庫。它運行在分布式環境並且集成在Hadoop和Apache Spark中。這使它可以配置深度神經網路,並且它與Java、Scala和其他JVM語言兼容。
4.DMTK
DMTK分布式集齊學習工具(Distributed Machine Learning Toolkit)的縮寫,和CNTK一樣,是微軟的開源人工智慧工具。作為設計用於大數據的應用程序,它的目標是更快的訓練人工智慧系統。它包括三個主要組件:DMTK框架、LightLDA主題模型演算法和分布式(多義)字嵌入演算法。為了證明它的速度,微軟聲稱在一個八集群的機器上,它能夠"用100萬個主題和1000萬個單詞的詞彙表(總共10萬億參數)訓練一個主題模型,在一個文檔中收集1000億個符號,"。這一成績是別的工具無法比擬的。
5.H20
相比起科研,H2O更注重將AI服務於企業用戶,因此H2O有著大量的公司客戶,比如第一資本金融公司、思科、Nielsen Catalina、PayPal和泛美都是它的用戶。它聲稱任何人都可以利用機器學習和預測分析的力量來解決業務難題。它可以用於預測建模、風險和欺詐分析、保險分析、廣告技術、醫療保健和客戶情報。
它有兩種開源版本:標准版H2O和Sparking Water版,它被集成在Apache Spark中。也有付費的企業用戶支持。
6.Mahout
它是Apache基金會項目,Mahout是一個開源機器學習框架。根據它的網站所言,它有著三個主要的特性:一個構建可擴展演算法的編程環境、像Spark和H2O一樣的預制演算法工具和一個叫Samsara的矢量數學實驗環境。使用Mahout的公司有Adobe、埃森哲咨詢公司、Foursquare、英特爾、領英、Twitter、雅虎和其他許多公司。其網站列了出第三方的專業支持。
7.MLlib
由於其速度,Apache Spark成為一個最流行的大數據處理工具。MLlib是Spark的可擴展機器學習庫。它集成了Hadoop並可以與NumPy和R進行交互操作。它包括了許多機器學習演算法如分類、回歸、決策樹、推薦、集群、主題建模、功能轉換、模型評價、ML管道架構、ML持久、生存分析、頻繁項集和序列模式挖掘、分布式線性代數和統計。
8.NuPIC
由Numenta公司管理的NuPIC是一個基於分層暫時記憶理論的開源人工智慧項目。從本質上講,HTM試圖創建一個計算機系統來模仿人類大腦皮層。他們的目標是創造一個"在許多認知任務上接近或者超越人類認知能力"的機器。
除了開源許可,Numenta還提供NuPic的商業許可協議,並且它還提供技術專利的許可證。
9.OpenNN
作為一個為開發者和科研人員設計的具有高級理解力的人工智慧,OpenNN是一個實現神經網路演算法的c++編程庫。它的關鍵特性包括深度的架構和快速的性能。其網站上可以查到豐富的文檔,包括一個解釋了神經網路的基本知識的入門教程
10.OpenCyc
由Cycorp公司開發的OpenCyc提供了對Cyc知識庫的訪問和常識推理引擎。它擁有超過239,000個條目,大約2,093,000個三元組和大約69,000 owl:這是一種類似於鏈接到外部語義庫的命名空間。它在富領域模型、語義數據集成、文本理解、特殊領域的專家系統和 游戲 AI中有著良好的應用。該公司還提供另外兩個版本的Cyc:一個可免費的用於科研但是不開源,和一個提供給企業的但是需要付費。
11.Oryx 2
構建在Apache Spark和Kafka之上的Oryx 2是一個專門針對大規模機器學習的應用程序開發框架。它採用一個獨特的三層λ架構。開發者可以使用Orys 2創建新的應用程序,另外它還擁有一些預先構建的應用程序可以用於常見的大數據任務比如協同過濾、分類、回歸和聚類。大數據工具供應商Cloudera創造了最初的Oryx 1項目並且一直積極參與持續發展。
12.PredictionIO
今年的二月,Salesforce收購了PredictionIO,接著在七月,它將該平台和商標貢獻給Apache基金會,Apache基金會將其列為孵育計劃。所以當Salesforce利用PredictionIO技術來提升它的機器學習能力時,成效將會同步出現在開源版本中。它可以幫助用戶創建帶有機器學習功能的預測引擎,這可用於部署能夠實時動態查詢的Web服務。
13.SystemML
最初由IBM開發,SystemML現在是一個Apache大數據項目。它提供了一個高度可伸縮的平台,可以實現高等數學運算,並且它的演算法用R或一種類似python的語法寫成。企業已經在使用它來跟蹤 汽車 維修客戶服務、規劃機場交通和連接 社會 媒體數據與銀行客戶。它可以在Spark或Hadoop上運行。
14.TensorFlow
TensorFlow是一個谷歌的開源人工智慧工具。它提供了一個使用數據流圖進行數值計算的庫。它可以運行在多種不同的有著單或多CPU和GPU的系統,甚至可以在移動設備上運行。它擁有深厚的靈活性、真正的可移植性、自動微分功能,並且支持Python和c++。它的網站擁有十分詳細的教程列表來幫助開發者和研究人員沉浸於使用或擴展他的功能。
15.Torch
Torch將自己描述為:"一個優先使用GPU的擁有機器學習演算法廣泛支持的科學計算框架",它的特點是靈活性和速度。此外,它可以很容易的通過軟體包用於機器學習、計算機視覺、信號處理、並行處理、圖像、視頻、音頻和網路等方面。它依賴一個叫做LuaJIT的腳本語言,而LuaJIT是基於Lua的。
歡迎關注~
微信公眾號: IT百戰程序員 ,免費提供人工智慧、大數據、雲計算等資料~~不管你在地球哪個方位,歡迎你的關注!
⑵ 數據挖掘常用的軟體有哪些
1、Rapid Miner
Rapid Miner是一個數據科學軟體平台,為數據准備、機器學習、深度學習、文本挖掘和預測分析提供一種集成環境。它是領先的數據挖掘開源系統之一。該程序完全用Java編程語言編寫。該程序提供了一個選項,以便用戶試用大量可任意嵌套的操作符,這些操作符在XML文件中有詳細說明,可由Rapid Miner的圖形用戶界面來構建。
2、Orange
Orange是一個開源數據可視化、機器學習和數據挖掘工具包。它有一個可視化編程前端,可用於探索性數據分析和互動式數據可視化。Orange是一個基於組件的可視化編程軟體包,用於數據可視化、機器學習、數據挖掘和數據分析。Orange組件稱為窗口組件,范圍廣泛:從簡單的數據可視化、子集選擇和預處理,到學習演算法和預測建模的評估,不一而足。Orange的可視化編程通過界面來進行,其中工作流程通過連接預定義或用戶設計的窗口組件來創建,而高級用戶可以將Orange用作Python庫,以便操縱數據和更改窗口組件。
3、Kaggle
Kaggle是世界上數據科學家和機器學習者社區。Kaggle以開設機器學習競賽起家,但現在逐漸變成基於公共雲的數據科學平台。Kaggle是一個平台,有助於解決難題、招募強大的團隊並宣傳數據科學的力量。
4、Weka
懷卡托知識分析環境(Weka)是紐西蘭懷卡託大學開發的一套機器學習軟體。該軟體用Java編寫。它含有一系列面向數據分析和預測建模的可視化工具和演算法,附帶圖形用戶界面。Weka支持幾種標准數據挖掘任務,更具體地說是指數據預處理、聚類、分類、回歸、可視化和特徵選擇。
關於數據挖掘常用的軟體有哪些,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑶ 是用python學數據挖掘好,還是用java學weka的開發好
你熟悉python 就用 python,
你熟悉java 就學weka, weka 一個軟體連續開發20多年,及其成熟而且做到極致,很多都已經能自動化,其擴展版本甚至演算法都能自己選擇,極致到完全不懂的人都可以用。
weka有損自以為高深的人的威嚴和神秘感。很多人特別喜歡反復找輪子,寧願選擇用匕首去殺敵,即使匕首旁邊有一支子彈上了膛的AK47,也會選擇視而不見。當然如果你要做一些復雜的應用,熟悉java是必須的, 另python 也可以調用weka (好像叫jython)
⑷ weka能否進行實例過濾
這個肯定是有的。不知道你是用weka作編程開發還是只用GUI作數據挖掘
如果是用GUI的話如圖就是選擇一種FILTER實現過濾實例(對原始數據進行預處理),可以看到filter有監督的和非監督的,你可以根據需求選擇對應的filter,選好後點擊那個filter的框就可以設置具體參數和規則什麼的
如果你是用weka作開發,http://weka.sourceforge.net/doc.stable/這個是weka的API可以看到weka.filters的包然後具體的應用你自己看API就可以了
如果用GUI選擇filter選暈了不知道用哪個那也去看看API吧解釋的還是可以的是在不行去下載一個weka的源碼看看注釋不過全是E文