topicmodelpython

发布时间: 2022-09-21 19:46:51

❶ 主题模型到底还有没有用，该怎么用

感觉topic model基本靠吹，根本不work。可是再通过细研究下来之后，感觉还是too young too naive~比如：最前沿的Topic Model是大规模并行化。topic model目前所有做模型变形去适应各个task的都不适合工业界，topic model最需要解决的问题是如何快速计算上千或者上万topic时的gibbs sampling速度~~~用来解决各种各样的粗的问题。可以说关键词抽取的问题是粒度太细，不能合并同类项，能做的是认识了身高1米体重200斤的是绵羊，你再给它个身高0.5米的就认不出了。而话题数少的topic model只能告诉你这是动物~所以我们需要用大规模语料去train一个topic上万的东西，来分清绵羊~我相信腾讯那个号称世界上最大的LDA，一定做了并行化，且topic数量巨大，而且取得了比较好的效果。另一个是Topic Model最适合的变种是加入先验信息，我相信使用的是完全无监督的Topic Model，然而实在是过于不work。浪费了现实生活中那么多的标注数据，有监督的模型一定比无监督的好~所以！可以试试Supervised Topic Model利用你在现实中已有的标注来提高模型准确度来利用常用的的tag来train个有监督Topic Model~~~一定会词聚类效果好不少。所以现在一些好的会议上面用topic model 而且数据量也不是很大的，我根本不相信他们的结果，比如CMU一个phd的一篇文章：Nonparametric discovery of human routines from sensor data。我怀疑他根本在数据造假，因为实验太好重复了。就像之前看到有网友说在短文本上面尝试LDA,效果明显就差强人意。

❷ 什么是topic model

在机器学习和自然语言处理领域，topic model指一种统计模型，用来从一批文档的集合中发现抽象的主题/论题。
In machine learning and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents.

❸ python语言下的机器学习库

Python语言下的机器学习库
Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。当然，它也有些缺点；其中一个是工具和库过于分散。如果你是拥有unix思维（unix-minded）的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。
这篇文章的目的就是列举并描述Python可用的最有用的机器学习工具和库。这个列表中，我们不要求这些库是用Python写的，只要有Python接口就够了。我们在最后也有一小节关于深度学习（Deep Learning）的内容，因为它最近也吸引了相当多的关注。
我们的目的不是列出Python中所有机器学习库（搜索“机器学习”时Python包索引(PyPI)返回了139个结果），而是列出我们所知的有用并且维护良好的那些。另外，尽管有些模块可以用于多种机器学习任务，我们只列出主要焦点在机器学习的库。比如，虽然Scipy包含一些聚类算法，但是它的主焦点不是机器学习而是全面的科学计算工具集。因此我们排除了Scipy（尽管我们也使用它！）。
另一个需要提到的是，我们同样会根据与其他科学计算库的集成效果来评估这些库，因为机器学习（有监督的或者无监督的）也是数据处理系统的一部分。如果你使用的库与数据处理系统其他的库不相配，你就要花大量时间创建不同库之间的中间层。在工具集中有个很棒的库很重要，但这个库能与其他库良好集成也同样重要。
如果你擅长其他语言，但也想使用Python包，我们也简单地描述如何与Python进行集成来使用这篇文章列出的库。
Scikit-LearnScikit Learn是我们在CB Insights选用的机器学习工具。我们用它进行分类、特征选择、特征提取和聚集。我们最爱的一点是它拥有易用的一致性API，并提供了很多开箱可用的求值、诊断和交叉验证方法（是不是听起来很熟悉？Python也提供了“电池已备(译注：指开箱可用)”的方法）。锦上添花的是它底层使用Scipy数据结构，与Python中其余使用Scipy、Numpy、Pandas和Matplotlib进行科学计算的部分适应地很好。因此，如果你想可视化分类器的性能（比如，使用精确率与反馈率(precision-recall)图表，或者接收者操作特征(Receiver Operating Characteristics，ROC)曲线），Matplotlib可以帮助进行快速可视化。考虑到花在清理和构造数据的时间，使用这个库会非常方便，因为它可以紧密集成到其他科学计算包上。
另外，它还包含有限的自然语言处理特征提取能力，以及词袋（bag of words）、tfidf（Term Frequency Inverse Document Frequency算法）、预处理（停用词/stop-words，自定义预处理，分析器）。此外，如果你想快速对小数据集（toy dataset）进行不同基准测试的话，它自带的数据集模块提供了常见和有用的数据集。你还可以根据这些数据集创建自己的小数据集，这样在将模型应用到真实世界中之前，你可以按照自己的目的来检验模型是否符合期望。对参数最优化和参数调整，它也提供了网格搜索和随机搜索。如果没有强大的社区支持，或者维护得不好，这些特性都不可能实现。我们期盼它的第一个稳定发布版。
StatsmodelsStatsmodels是另一个聚焦在统计模型上的强大的库，主要用于预测性和探索性分析。如果你想拟合线性模型、进行统计分析，或者预测性建模，那么Statsmodels非常适合。它提供的统计测试相当全面，覆盖了大部分情况的验证任务。如果你是R或者S的用户，它也提供了某些统计模型的R语法。它的模型同时也接受Numpy数组和Pandas数据帧，让中间数据结构成为过去！
PyMCPyMC是做贝叶斯曲线的工具。它包含贝叶斯模型、统计分布和模型收敛的诊断工具，也包含一些层次模型。如果想进行贝叶斯分析，你应该看看。
ShogunShogun是个聚焦在支持向量机（Support Vector Machines, SVM）上的机器学习工具箱，用C++编写。它正处于积极开发和维护中，提供了Python接口，也是文档化最好的接口。但是，相对于Scikit-learn，我们发现它的API比较难用。而且，也没提供很多开箱可用的诊断和求值算法。但是，速度是个很大的优势。
GensimGensim被定义为“人们的主题建模工具（topic modeling for humans）”。它的主页上描述，其焦点是狄利克雷划分（Latent Dirichlet Allocation， LDA）及变体。不同于其他包，它支持自然语言处理，能将NLP和其他机器学习算法更容易组合在一起。如果你的领域在NLP，并想进行聚集和基本的分类，你可以看看。目前，它们引入了Google的基于递归神经网络（Recurrent Neural Network）的文本表示法word2vec。这个库只使用Python编写。
OrangeOrange是这篇文章列举的所有库中唯一带有图形用户界面（Graphical User Interface，GUI）的。对分类、聚集和特征选择方法而言，它是相当全面的，还有些交叉验证的方法。在某些方面比Scikit-learn还要好（分类方法、一些预处理能力），但与其他科学计算系统（Numpy, Scipy, Matplotlib, Pandas）的适配上比不上Scikit-learn。但是，包含GUI是个很重要的优势。你可以可视化交叉验证的结果、模型和特征选择方法（某些功能需要安装Graphviz）。对大多数算法，Orange都有自己的数据结构，所以你需要将数据包装成Orange兼容的数据结构，这使得其学习曲线更陡。
PyMVPAPyMVPA是另一个统计学习库，API上与Scikit-learn很像。包含交叉验证和诊断工具，但是没有Scikit-learn全面。
深度学习尽管深度学习是机器学习的一个子节，我们在这里创建单独一节的原因是，它最新吸引了Google和Facebook人才招聘部门的很多注意。
TheanoTheano是最成熟的深度学习库。它提供了不错的数据结构（张量，tensor）来表示神经网络的层，对线性代数来说很高效，与Numpy的数组类似。需要注意的是，它的API可能不是很直观，用户的学习曲线会很高。有很多基于Theano的库都在利用其数据结构。它同时支持开箱可用的GPU编程。
PyLearn2还有另外一个基于Theano的库，PyLearn2，它给Theano引入了模块化和可配置性，你可以通过不同的配置文件来创建神经网络，这样尝试不同的参数会更容易。可以说，如果分离神经网络的参数和属性到配置文件，它的模块化能力更强大。
DecafDecaf是最近由UC Berkeley发布的深度学习库，在Imagenet分类挑战中测试发现，其神经网络实现是很先进的（state of art）。
Nolearn如果你想在深度学习中也能使用优秀的Scikit-learn库API，封装了Decaf的Nolearn会让你能够更轻松地使用它。它是对Decaf的包装，与Scikit-learn兼容（大部分），使得Decaf更不可思议。
OverFeatOverFeat是最近猫vs.狗（kaggle挑战）的胜利者，它使用C++编写，也包含一个Python包装器（还有Matlab和Lua）。通过Torch库使用GPU，所以速度很快。也赢得了ImageNet分类的检测和本地化挑战。如果你的领域是计算机视觉，你可能需要看看。
HebelHebel是另一个带有GPU支持的神经网络库，开箱可用。你可以通过YAML文件（与Pylearn2类似）决定神经网络的属性，提供了将神级网络和代码友好分离的方式，可以快速地运行模型。由于开发不久，就深度和广度上说，文档很匮乏。就神经网络模型来说，也是有局限的，因为只支持一种神经网络模型（正向反馈，feed-forward）。但是，它是用纯Python编写，将会是很友好的库，因为包含很多实用函数，比如调度器和监视器，其他库中我们并没有发现这些功能。
NeurolabNeuroLab是另一个API友好（与Matlabapi类似）的神经网络库。与其他库不同，它包含递归神经网络（Recurrent Neural Network，RNN）实现的不同变体。如果你想使用RNN，这个库是同类API中最好的选择之一。
与其他语言集成你不了解Python但是很擅长其他语言？不要绝望！Python（还有其他）的一个强项就是它是一个完美的胶水语言，你可以使用自己常用的编程语言，通过Python来访问这些库。以下适合各种编程语言的包可以用于将其他语言与Python组合到一起：R -> RPythonMatlab -> matpythonJava -> JythonLua -> Lunatic PythonJulia -> PyCall.jl
不活跃的库这些库超过一年没有发布任何更新，我们列出是因为你有可能会有用，但是这些库不太可能会进行BUG修复，特别是未来进行增强。MDPMlPyFFnetPyBrain如果我们遗漏了你最爱的Python机器学习包，通过评论让我们知道。我们很乐意将其添加到文章中。

❹ Python中models报语法错误

做个简单的测试，把系统时间按照YYYY-MM-DD HH:MM[:ss[.uuuuuu]][TZ]格式输出，再把你的时间格式按这个存进去，看能不能输出。 YYYY-MM-DD HH:MM[:ss[.uuuuuu]][TZ]，后面的timezone，你有没有？或者这样设置格式也行啊 {{ value|date:"Y-m-d H:i:s"}} 2011-12-0210:30:00

❺ 如何用 Python 从海量文本抽取主题

代码
我们在Jupyter Notebook中新建一个Python 2笔记本，起名为topic-model。

为了处理表格数据，我们依然使用数据框工具Pandas。先调用它。
import pandas as pd
然后读入我们的数据文件datascience.csv，注意它的编码是中文GB18030，不是Pandas默认设置的编码，所以此处需要显式指定编码类型，以免出现乱码错误。
df = pd.read_csv("datascience.csv", encoding='gb18030')
我们来看看数据框的头几行，以确认读取是否正确。
df.head()
显示结果如下：

没问题，头几行内容所有列都正确读入，文字显式正常。我们看看数据框的长度，以确认数据是否读取完整。
df.shape
执行的结果为：
(1024, 3)
行列数都与我们爬取到的数量一致，通过。
下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。

我们首先调用jieba分词包。
import jieba
我们此次需要处理的，不是单一文本数据，而是1000多条文本数据，因此我们需要把这项工作并行化。这就需要首先编写一个函数，处理单一文本的分词。
def chinese_word_cut(mytext):
return " ".join(jieba.cut(mytext))
有了这个函数之后，我们就可以不断调用它来批量处理数据框里面的全部文本（正文）信息了。你当然可以自己写个循环来做这项工作。
下面这一段代码执行起来，可能需要一小段时间。请耐心等候。
df["content_cutted"] = df.content.apply(chinese_word_cut)
执行过程中可能会出现如下提示。没关系，忽略就好。
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/8s//T/jieba.cache
Loading model cost 0.406 seconds.
Prefix dict has been built succesfully.
执行完毕之后，我们需要查看一下，文本是否已经被正确分词。
df.content_cutted.head()

❻ 有什么有趣的 Python 模块值得推荐

最近用到过的几个：
自动化图表用到 matplotlib: python plotting，粗鄙如我也能秒杀excel的图表啦
轻量级demo神器 Welcome | Flask (A Python Microframework)，django拜拜吧
dm预研用 scikit-learn: machine learning in Python
很好玩的主题模型实现 gensim: Topic modelling for humans
ctypes、nltk什么的就不说了，免得被人说土，虽然用的还是蛮多的……

阅读全文

热点内容

路虎揽运配置怎么查询发布：2025-01-11 03:42:51 浏览：392

仿站源码发布：2025-01-11 03:42:05 浏览：39

腾讯的云服务器发布：2025-01-11 03:40:47 浏览：568

百分之十的算法发布：2025-01-11 03:34:30 浏览：641

java16进制tostring 发布：2025-01-11 03:24:21 浏览：721

mql4c语言发布：2025-01-11 03:24:20 浏览：255

科尔访问苏联发布：2025-01-11 03:15:47 浏览：331

python简单计算器发布：2025-01-11 03:15:13 浏览：577

python绝对路径发布：2025-01-11 03:10:55 浏览：759

优衣库压缩发布：2025-01-11 03:06:36 浏览：354

topicmodelpython

与topicmodelpython相关的资讯