pythonweka
⑴ 如何用python调用weka函数
Example:
def gender_features(name):
features = {}
for letter in 'abcdefghijklmnopqrstuvwxyz':
features['count(%s)' % letter] = name.lower().count(letter)
features['has(%s)' % letter] = letter in name.lower()
features['startswith(%s)' % letter] = (letter==name[0].lower())
features['endswith(%s)' % letter] = (letter==name[-1].lower())
return features
if __name__ == "__main__":
from nltk.corpus import names
import random
names = ([(name, 'male') for name in names.words('male.txt')] +[(name, 'female') for name innames.words('female.txt')])
random.shuffle(names)
featuresets = [(gender_features(n), g) for (n,g) in names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = WekaClassifier.train(r'c:/name.model',train_set,'weka.classifiers.functions.Logistic')
print nltk.classify.accuracy(classifier, test_set)
ls = ["Alex","Neo","vivian","tom"]
result = classifier.batch_classify([gender_features(name) for name in ls])
print result
⑵ 数据挖掘常用的软件有哪些
1、Rapid Miner
Rapid Miner是一个数据科学软件平台,为数据准备、机器学习、深度学习、文本挖掘和预测分析提供一种集成环境。它是领先的数据挖掘开源系统之一。该程序完全用java编程语言编写。该程序提供了一个选项,以便用户试用大量可任意嵌套的操作符,这些操作符在XML文件中有详细说明,可由Rapid Miner的图形用户界面来构建。
2、Orange
Orange是一个开源数据可视化、机器学习和数据挖掘工具包。它有一个可视化编程前端,可用于探索性数据分析和交互式数据可视化。Orange是一个基于组件的可视化编程软件包,用于数据可视化、机器学习、数据挖掘和数据分析。Orange组件称为窗口组件,范围广泛:从简单的数据可视化、子集选择和预处理,到学习算法和预测建模的评估,不一而足。Orange的可视化编程通过界面来进行,其中工作流程通过连接预定义或用户设计的窗口组件来创建,而高级用户可以将Orange用作Python库,以便操纵数据和更改窗口组件。
3、Kaggle
Kaggle是世界上数据科学家和机器学习者社区。Kaggle以开设机器学习竞赛起家,但现在逐渐变成基于公共云的数据科学平台。Kaggle是一个平台,有助于解决难题、招募强大的团队并宣传数据科学的力量。
4、Weka
怀卡托知识分析环境(Weka)是新西兰怀卡托大学开发的一套机器学习软件。该软件用Java编写。它含有一系列面向数据分析和预测建模的可视化工具和算法,附带图形用户界面。Weka支持几种标准数据挖掘任务,更具体地说是指数据预处理、聚类、分类、回归、可视化和特征选择。
关于数据挖掘常用的软件有哪些,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
⑶ 如何在python程序中调用weka的分类器
这种语言具有非常简捷而清晰的语法特点,适合完成各种高层任务,几乎可以在所有的操作系统中运行。目前,基于这种语言的相关技术正在飞速的发展,用户数量急剧扩大,相关的资源非常多。下面是一个在标准输出设备上输出Hello World的简单程序,这...
⑷ 研究生必备科研工具都有哪些它们的本质作用是什么
研究生必备科研工具都有哪些?它们的本质作用是什么?今天想跟大家分享的三个科研工具,分别是用一下查文献,写论文降低重复率以及科研绘图,这三种小编都是自己用习惯了的,也有刚被同学安利的,总之就是希望推荐的这些有适合你的,有你能用上的。
那最后,对于数据分析的过程,往往python是更好的选择,那除了python之外,同样也有一个非常简单易用的界面,更友好的集成性工具操作的软件,那就是Weka。这个软件,集成了大部分的数据挖掘和数据分析的过程,通过一些简单的简选操作就可以完成。并不需要使用拍子的编程也是非常好,用的一个工具,如果大家刚刚接触数据挖掘,可以通过这个软件来进行一些分析,来帮助你更好的了解数据分析和数据挖掘的过程。以上,就是我给大家推荐的五类研究生必备或者必备的软件工具,尤其是对于最后实证分析类的软件,都需要大家去花时间来进行学习和实践才可以掌握和应用。
⑸ 是用python学数据挖掘好,还是用java学weka的开发好
你熟悉python 就用 python,
你熟悉java 就学weka, weka 一个软件连续开发20多年,及其成熟而且做到极致,很多都已经能自动化,其扩展版本甚至算法都能自己选择,极致到完全不懂的人都可以用。
weka有损自以为高深的人的威严和神秘感。很多人特别喜欢反复找轮子,宁愿选择用匕首去杀敌,即使匕首旁边有一支子弹上了膛的AK47,也会选择视而不见。当然如果你要做一些复杂的应用,熟悉java是必须的, 另python 也可以调用weka (好像叫jython)
⑹ 如何在WEKA中设置libsvm的路径
包解压C盘:C:\libsvm-3.182.
要用libsvm自带脚本grid.pyeasy.py,需要官网载绘图工具gnuplot,解压c盘.进入c:\libsvm\tools目录用文本编辑器(记事本edit都)修改grid.pyeasy.py两文件找其关于gnuplot路径项根据实际路径进行修改并保存
python与libsvm连接(参考SVM习笔记(2)LIBSVMpython使用)
1.打IDLE(pythonGUI)输入>>>importsys>>>sys.version
2.python32位现字符:
(default,Apr102012,23:31:26)[MSCv.150032bit(Intel)]’
候LIBSVMpython接口设置非简单libsvm-3.16文件夹windows文件夹找态链接库libsvm.dll其添加系统目录`C:\WINDOWS\system32\’即python使用libsvm
wk_ad_begin({pid : 21});wk_ad_after(21, function(){$('.ad-hidden').hide();}, function(){$('.ad-hidden').show();});
3.执行例
importos
os.chdir('C:\libsvm-3.18\python')#请根据实际路径修改
fromsvmutilimport*
y,x=svm_read_problem('../heart_scale')#读取自带数据
m=svm_train(y[:200],x[:200],'-c4')
p_label,p_acc,p_val=svm_predict(y[200:],x[200:],m)
##现结应该确安装optimizationfinished,#iter=257nu=0.351161
obj=-225.628984,rho=0.636110nSV=91,nBSV=49
TotalnSV=91
Accuracy=84.2857%(59/70)(classification)
F
⑺ 北大青鸟设计培训:八个最佳的数据中心开源挖掘工具
数据挖掘,又称为资料探勘、数据采矿。
它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。
其中一些应用包括市场细分-如识别客户从特定品牌购买特定产品的特征,欺诈检测-识别可能导致在线欺诈的交易模式等。
在本文中,长沙电脑培训http://www.kmbdqn.cn/整理了进行数据挖掘的8个最佳开源工具。
1、WekaWEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2、RapidMinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。
它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
3、OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。
它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。
其由C++和Python开发,它的图形库是由跨平台的Qt框架开发。
4、KnimeKNIME(KonstanzInformationMiner)是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。
5、jHepWorkjHepWork是一套功能完整的面向对象科学数据分析框架。
Jython宏是用来展示一维和二维直方图的数据。
该程序包括许多工具,可以用来和二维三维的科学图形进行互动。
6、ApacheMahoutApacheMahout是ApacheSoftwareFoundation(ASF)开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache在许可下免费使用。
该项目已经发展到了它的最二个年头,目前只有一个公共发行版。
Mahout包含许多实现,包括集群、分类、CP和进化程序。
此外,通过使用ApacheHadoop库,Mahout可以有效地扩展到云中。
7、ELKIELKI(EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures)主要用来聚类和找离群点。
ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。
可以用来寻找离群点。
⑻ 数据分析一般用python还是R还是Java
企业日常数据分析:
1、如果是离线数据python会灵活一点(如设备的运维数据.), 但如果是实现数据还是用java会快一点(如ERP, MES.自动化.)
2、Java跑得更快,在WEKA上做数据分析会更“舒服”。
但python更加全面,适用性更广。
3、做统计挖掘算法分析的话用R,如果是其他用途建议学Python。适用范围广啊!
以上是几种建议方法,各有各的特点!
⑼ 为什么有了SAS,WEKA等功能强大的数据分析挖掘软件,还需要R,PYTHON
1.R是用于统计分析和图形化的计算机语言及分析工具;
2.Weka可能是名气最大的开源机器学习和数据挖掘软件,但用起来并不方便,界面也简单了点;
3.Tanagra 是使用图形界面的数据挖掘软件;
4.RapidMiner现在流行的势头在上升,但它的操作方式和商用软件差别较大,不支持分析流程图的方式,当包含的运算符比较多的时候就不容易查看了;
5.KNIME和Orange看起来都不错,Orange界面看上去很清爽,但我发现它不支持中 文。推荐KNIME,同时安装Weka和R扩展包。
对于普通用户可以选 用界面友好易于使用的软件,对于希望从事算法开发的用户则可以根据软件开发工具不同(Java、R、C++、Python等)来选择相应的软件。