当前位置:首页 » 编程语言 » python淘宝评论

python淘宝评论

发布时间: 2023-11-08 18:26:27

python SnowNLP情感分析实践与优化总结

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极****”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为0.5,明显不符合

2)s = SnowNLP(“ ”.join(jieba.analyse.textrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气****” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于0.5,但实际为0.88,去掉“苏宁易购”则为0.6>

⑵ 怎样用python抓取淘宝评论

#coding=utf-8

importurllib2
importsys
importjson
importre

#设置系统默认编码为utf-8
reload(sys)
sys.setdefaultencoding("utf-8")

#Onlyforpython2
'''
只是简单的示例,没有检查无评论的情况,其它异常也可能没有检查,
你可以根据自己的需要再对代码修改
'''

#解析网页数据
defparseData(html_data,reg_str):
pattern=re.compile(reg_str)
result=re.search(pattern,html_data)
ifresult:
returnresult.groups()


#commodity_url为商品详情页面
commodity_url="http://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-9140345655.2.y3LCj0&id=44454286657"

html_data=urllib2.urlopen(commodity_url).read()
#获取用户ID和商品ID
auction_msg=parseData(html_data,r'userNumId=(.*?)&auctionNumId=(.*?)&')
ifnotauction_msg:
print"Getreviewsfailed!"#获取失败,退出
sys.exit()

reviews_url="http://rate.taobao.com/feedRateList.htm?callback=jsonp_reviews_list&currentPageNum=1&rateType=&orderType=sort_weight&userNumId=%s&auctionNumId=%s"%auction_msg

response=urllib2.urlopen(reviews_url)
reviews_data=response.read().decode("gbk")

#获取评论数据
json_str=parseData(reviews_data,r'((.*))')[0]
ifnotjson_str:
print"Getreviewsfailed!"#获取失败,退出
sys.exit()

jdata=json.loads(json_str)

#下面只打印了第一条评论,如需要打印所有,则遍历jdata["comments"]即可
printjdata["comments"][0]["content"]

热点内容
win7用户名密码是什么 发布:2025-01-31 10:57:38 浏览:394
网址端口访问 发布:2025-01-31 10:49:30 浏览:512
javaweb代码 发布:2025-01-31 10:37:54 浏览:259
sqlserver合并 发布:2025-01-31 10:22:27 浏览:712
大理服务器地址 发布:2025-01-31 10:10:52 浏览:972
流上传文件 发布:2025-01-31 10:09:27 浏览:40
满赠算法 发布:2025-01-31 09:54:27 浏览:709
滨州视频拍摄脚本 发布:2025-01-31 09:48:25 浏览:418
光遇出现服务器已满是什么回事 发布:2025-01-31 09:35:29 浏览:356
AndroidWindows7 发布:2025-01-31 09:32:17 浏览:260