pythoncomment
⑴ python的bookcomment是在桌面吗
是的,是的,这个应该是直接在桌面上就可以。
⑵ python代码的注释有几种
python代码的注释有两种。一、python单行注释符号(#)
python中单行注释采用#开头,示例:#thisisacomment。
二、批量、多行注释符号
多行注释是用三引号,例如:输入''''''或者"""",将要注释的代码插在中间。
Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。
Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。"
⑶ python xlwt 如何加批注
xlwt目前好像是没有这个功能,可以使用openpyxl这个库实现
fromopenpyxlimportWorkbook
fromopenpyxl.commentsimportComment
if__name__=='__main__':
wb=Workbook()
ws=wb.active
comment=Comment('hellocomment','wyang')
ws['A1'].comment=comment
wb.save('test.xlsx')
⑷ 在苹果电脑中python多行如何注释
1、先选中要注释的段落,然后按下“CTRL+/”,即可实现多行代码的注释;
2、跟注释单行一样在每一行代码前输入“SHIFT+#”或者按下“CTRL+/”;
3、输入('''内容''')单引号或者("""内容""")双引号,也可以实现注释多行代码的效果。
推荐第1种,注释和取消比较方便,但是颜色是灰色的不是绿色的。
⑸ python在重命名时黑框出现闪退
重命名时黑框出现闪退。
第一步首先找到我们平时编辑python后,将文件储存的所在文件夹的位置,尝试下双击,看是否能打开。第二步如果打不开或者闪退,可以尝试选择打开方式,选择Python应用程序或者文本编译器看看是否能够打开文件。如果尝试了双击,未打开,接着选择打开方式pthon,还是失败。然后选择平时的文本编译器Geany,成功打开了命名为comment。py的python文件。
第三步尝试用文本编译器执行该python文件,看看能否运行。结果显示可以成功运行。第四步尝试在完成后的程序末尾加上函数input(),加入这个函数后,相当于在等待你输入,这是一个还未完结的程序。再选择保存。第五步退出geany编译器,再次找到该python文件,尝试双击或者选择python程序打开该文件。问题就解决了。
⑹ 如何用python获取京东的评论数据
京东商品评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论的信息。因此我们需要先找到存放商品评论信息的文件。这里我们使用Chrome浏览器里的开发者工具进行查找。
具体方法是在商品详情页点击鼠标右键,选择检查,在弹出的开发者工具界面中选择Network,设置为禁用缓存(Disable cache)和只查看JS文件。然后刷新页面。页面加载完成后向下滚动鼠标找到商品评价部分,等商品评价信息显示出来后,在下面Network界面的左侧筛选框中输入proctPageComments,这时下面的加载记录中只有一条信息,这里包含的就是商品详情页的商品评论信息。点击这条信息,在右侧的Preview界面中可以看到其中包含了当前页面中的评论信息。(抓取价格信息输入prices)。
复制这条信息,并把URL地址放在浏览器中打开,里面包含了当前页的商品评论信息。这就是我们要抓取的URL地址。
仔细观察这条URL地址可以发现,其中proctId=10001234327是当前商品的商品ID。与商品详情页URL中的ID一致。而page=0是页码。如果我们要获取这个商品的所有评论,只需要更改page后面的数字即可。
在获得了商品评论的真实地址以及URL地址的规律后,我们开始使用python抓取这件商品的700+条评论信息。并对这些信息进行处理和分析。
开始前的准备工作
在开始抓取之前先要导入各种库文件,这里我们分别介绍下需要导入的每个库文件的名称以及在数据抓取和分析中的作用。requests用于进行页面抓取,time用于设置抓取过程中的Sleep时间,random用于生产随机数,这里的作用是将抓取页面的顺序打乱,re用于在抓取后的页面代码中提取需要的信息,numpy用于常规的指标计算,pandas用于进行数据汇总和透视分析,matplotlib用于绘制各站图表,jieba用于对评论内容进行分词和关键词提取。
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#导入正则库(从页面代码中提取信息)
import re
#导入数值计算库(常规计算)
import numpy as np
#导入科学计算库(拼表及各种分析汇总)
import pandas as pd
#导入绘制图表库(数据可视化)
import matplotlib.pyplot as plt
#导入结巴分词库(分词)
import jieba as jb
#导入结巴分词(关键词提取)
import jieba.analyse
将爬虫伪装成浏览器
导入完库文件后,还不能直接进行抓取,因为这样很容易被封。我们还需要对爬虫进行伪装,是爬虫看起来更像是来自浏览器的访问。这里主要的两个工作是设置请求中的头文件信息以及设置Cookie的内容。
头文件信息很容易找到,在Chrome的开发者工具中选择Network,刷新页面后选择Headers就可以看到本次访问的头文件信息,里面包含了一些浏览器的技术参数和引荐来源信息。将这些信息直接添加到代码中就可以,这里我们将头部信息保存在headers中。
#设置请求中头文件的信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Connection':'close',
'Referer':''
}
在查看头文件信息的旁边还有一个Cookies标签,点击进去就是本次访问的Cookies信息。这里的Cookies信息与前面头文件中的Cookie信息一致,不过这里更加清晰。把Request Cookies信息复制到代码中即可,这里我们将Request Cookies信息保存在Cookie中。
#设置Cookie的内容
cookie={'TrackID':'1_VWwvLYiy1FUr7wSr6HHmHhadG8d1-Qv-TVaw8JwcFG4EksqyLyx1SO7O06_Y_XUCyQMksp3RVb2ezA',
'__jda':'122270672.1507607632.1423495705.1479785414.1479794553.92',
'__jdb':'122270672.1.1507607632|92.1479794553',
'__jdc':'122270672',
'__j':'1507607632',
'__jdv':'122270672|direct|-|none|-|1478747025001',
'areaId':'1',
'cn':'0',
'ipLoc-djd':'1-72-2799-0',
'ipLocation':'%u5317%u4EAC',
'mx':'0_X',
'rkv':'V0800',
'user-key':'216123d5-4ed3-47b0-9289-12345',
'xtest':'4657.553..'}
抓取商品评论信息
设置完请求的头文件和Cookie信息后,我们开始抓取京东商品评论的信息。前面分析URL的时候说过,URL中包含两个重要的信息,一个是商品ID,另一个是页码。这里我们只抓取一个商品的评论信息,因此商品ID不需要更改。但这个商品的评论有700+条,也就是有近80页需要抓取,因此页码不是一个固定值,需要在0-80之间变化。这里我们将URL分成两部分,通过随机生成页码然后拼接URL的方式进行抓取。
#设置URL的第一部分
url1=''
#设置URL的第二部分
url2='&pageSize=10&callback=fetchJSON_comment98vv41127'
#乱序输出0-80的唯一随机数
ran_num=random.sample(range(80), 80)
为了使抓取过程看起来更加随机,我们没有从第1页一直抓取到第80页。而是使用random生成0-80的唯一随机数,也就是要抓取的页码编号。然后再将页码编号与两部分URL进行拼接。这里我们只知道商品有700+的评论,但并不知道具体数字,所以抓取范围定位从0-80页。
下面是具体的抓取过程,使用for循环每次从0-80的随机数中找一个生成页码编号,与两部分的URL进行拼接。生成要抓取的URL地址并与前面设置好的头文件信息和Cookie信息一起发送请求获取页面信息。将获取到的页面信息进行汇总。每次请求间休息5秒针,避免过于频繁的请求导致返回空值。
#拼接URL并乱序循环抓取页面
for i in ran_num:
a = ran_num[0]
if i == a:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html=r.content
else:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html2=r.content
html = html + html2
time.sleep(5)
print("当前抓取页面:",url,"状态:",r)
在抓取的过程中输入每一步抓取的页面URL以及状态。通过下面的截图可以看到,在page参数后面的页码是随机生成的并不连续。
抓取完80个页面后,我们还需要对页面进行编码。完成编码后就可以看到其中所包含的中文评论信息了。后面大部分苦逼的工作就是要对这些评论信息进行不断提取和反复的清洗。
#对抓取的页面进行编码
html=str(html, encoding = "GBK")
这里建议将抓取完的数据存储在本地,后续工作可以直接从本地打开文件进行清洗和分析工作。避免每次都要重新抓取数据。这里我们将数据保存在桌面的page.txt文件中。
#将编码后的页面输出为txt文本存储
file = open("c:\\Users \\Desktop\\page.txt", "w")
file.write(html)
file.close()
读取文件也比较简单,直接open加read函数就可以完成了。
#读取存储的txt文本文件
html = open('c:\\Users\\ Desktop\\page.txt', 'r').read()
提取信息并进行数据清洗
京东的商品评论中包含了很多有用的信息,我们需要将这些信息从页面代码中提取出来,整理成数据表以便进行后续的分析工作。这里应该就是整个过程中最苦逼的数据提取和清洗工作了。我们使用正则对每个字段进行提取。对于特殊的字段在通过替换等方式进行提取和清洗。
下面是提取的第一个字段userClient,也就是用户发布评论时所使用的设备类型,这类的字段提取还比较简单,一行代码搞定。查看一下提取出来的字段还比较干净。使用同样的方法我们分别提取了以下这些字段的内容。
#使用正则提取userClient字段信息
userClient=re.findall(r',"usefulVoteCount".*?,"userClientShow":(.*?),',html)
#使用正则提取userLevel字段信息
userLevel=re.findall(r'"referenceImage".*?,"userLevelName":(.*?),',html)
#使用正则提取proctColor字段信息
proctColor=re.findall(r'"creationTime".*?,"proctColor":(.*?),',html)
#使用正则提取recommend字段信息
recommend=re.findall(r'"creationTime".*?,"recommend":(.*?),',html)
#使用正则提取nickname字段信息
nickname=re.findall(r'"creationTime".*?,"nickname":(.*?),',html)
#使用正则提取userProvince字段信息
userProvince=re.findall(r'"referenceImage".*?,"userProvince":(.*?),',html)
#使用正则提取usefulVoteCount字段信息
usefulVoteCount=re.findall(r'"referenceImage".*?,"usefulVoteCount":(.*?),',html)
#使用正则提取days字段信息
days=re.findall(r'"usefulVoteCount".*?,"days":(.*?)}',html)
#使用正则提取score字段信息
score=re.findall(r'"referenceImage".*?,"score":(.*?),',html)</pre>
还有一些字段比较负责,无法通过正则一次提取出来,比如isMobile字段,有些值的后面还有大括号。这就需要进一步的提取和清洗工作。
#使用正则提取isMobile字段信息
isMobile=re.findall(r'"usefulVoteCount".*?,"isMobile":(.*?),',html)
使用for循环配合替换功能将字段中所有的}替换为空。替换完成后字段看起来干净多了。
#替换掉最后的}
mobile=[]
for m in isMobile:
n=m.replace('}','')
mobile.append(n)
proctSize字段中包含了胸围和杯罩两类信息,为了获得独立的杯罩信息需要进行二次提取,将杯罩信息单独保存出来。
#使用正则提取proctSize字段信息
proctSize=re.findall(r'"creationTime".*?,"proctSize":(.*?),',html)
使用for循环将proctSize中的第三个字符杯罩信息提取出来,并保持在cup字段中。
#提取杯罩信息
cup=[]
for s in proctSize:
s1=s[3]
cup.append(s1)
创建评论的日期信息仅依靠正则提取出来的信息还是比较乱,无法直接使用。因此也需要进行二次提取。下面是使用正则提取出的结果。
#使用正则提取时间字段信息
creationTime1=re.findall(r'"creationTime":(.*?),"referenceName',html)
日期和时间信息处于前20个字符,在二次提取中根据这个规律直接提起每个条目的前20个字符即可。将日期和时间单独保存为creationTime。
#提取日期和时间
creationTime=[]
for d in creationTime1:
date=d[1:20]
creationTime.append(date)
在上一步日期和时间的基础上,我们再进一步提取出单独的小时信息,方法与前面类似,提取日期时间中的第11和12个字符,就是小时的信息。提取完保存在hour字段以便后续的分析和汇总工作。
#提取小时信息
hour=[]
for h in creationTime:
date=h[10:13]
hour.append(date)
最后要提取的是评论内容信息,页面代码中包含图片的评论信息是重复的,因此在使用正则提取完后还需要对评论信息进行去重。
#使用正则提取评论信息
content=re.findall(r'"guid".*?,"content":(.*?),',html)
使用if进行判断,排除掉所有包含图片的评论信息,已达到评论去重的目的。
#对提取的评论信息进行去重
content_1=[]
for i in content:
if not "img" in i:
content_1.append(i)
完成所有字段信息的提取和清洗后,将这些字段组合在一起生成京东商品评论数据汇总表。下面是创建数据表的代码。数据表生成后还不能马上使用,需要对字段进行格式设置,例如时间和日期字段和一些包含数值的字段。具体的字段和格式设置依据后续的分析过程和目的。这里我们将creationTime设置为时间格式,并设置为数据表的索引列。将days字段设置为数值格式。
#将前面提取的各字段信息汇总为table数据表,以便后面分析
table=pd.DataFrame({'creationTime':creationTime,'hour':hour,'nickname':nickname,'proctColor':proctColor,'proctSize':proctSize,'cup':cup,'recommend':recommend,'mobile':mobile,'userClient':userClient,'userLevel':userLevel,'userProvince':userProvince,'usefulVoteCount':usefulVoteCount,'content_1':content_1,'days':days,'score':score})
#将creationTime字段更改为时间格式
table['creationTime']=pd.to_datetime(table['creationTime'])
#设置creationTime字段为索引列
table = table.set_index('creationTime')
#设置days字段为数值格式
table['days']=table['days'].astype(np.int64)
#查看整理完的数据表
table.head()
这里建议再次保存清洗和预处理完的数据表。我们这里将数据表保存为csv格式。到了这一步可以选择在Excel中完成后续的数据分析和可视化过程,也可以继续在python中完成。我们这里选择继续在python中完成后续的数据分析和可视化工作。
#保存table数据表
table.to_csv('jd_table.csv')
数据分析及可视化
分月评论数据变化趋势
首先查看京东商品评论的时间变化趋势情况,大部分用户在购买商品后会在10天以内进行评论,因此我们可以近似的认为在一个月的时间维度中评论时间的变化趋势代表了用户购买商品的变化趋势。
⑺ Python 语句和注释
我们将在本节中介绍 Python 语句,缩进以及注释,在本节的最后一部分,还会介绍作为一种特殊类型的 Python 注释 Docstring 。
Python 语句是给解释器执行的指令,一条 Python 语句包含类似于如下的表达式,
你可以将 Python 语句堪称解释器解释表达式并将其结果存储在变量中的指令。类似于 for , while , print 之类的语句具有特殊的含义,我们将在在后面的章节中讨论。
当你在一句语句结束时按回车键后,该 Python 语句被终止,我们可称之为单行语句。Python 中的多行语句可以通过使用连续字符 来创建,它将 Python 语句扩展为多行语句。
比如下面的例子,
这可以被称作明确的多行接续。
你还可以使用括号 () ,方括号 [] 或大括号 {} 来进行隐式的多行接续。
例如,你可以使用括号来连接多行语句,
Python 语句块,例如函数,循环或类的主体,以缩进来开头。对于语句块内的每个语句,应该保持相同的缩进。当缩进不一致时,你将得到什么什么 IndentationError 。
一般来说,在
Python 代码样式指南
中建议使用 4 个缩进空格。举例如下,
我们用缩进来增加程序的可读性,比如在下面的程序中,我们用两种方式来完成同一个功能,
你可以在这里看到第一个例子比第二个例子有更好的可读性。
注释用于描述程序的目的或工作工程,注释是在 Python 解释过程中被忽略的行为,它们不会干扰程序的流程。
如果你正在编写数百行代码,肯定需要添加注释,因为其他人在阅读你的代码的时候,没有足够的时间阅读每一行来理解代码的工作。程序的注释增加了可读性,并解释了代码的工作原理。
Python 注释以井号 # 开始
Using hash symbol in each line can define a multi-line comment. But there is another way to add a multi-line comment in Python, that is using triple quotation marks. You can use either ''' or """ .
三重引号 ''' 通常可以用来定义多行文档注释 Docstring ,你也可以用它来作为另外一种在 Python 中添加多行注释的方法。
Docstring 是文档字符串,它通常是 Python 函数,类,模块等的第一条语句。函数,方法和类的描述和注释位于文档字符串(文档字符串)内。
举例如下,
一目了然, Docstring 介绍了函数的功能。
⑻ python编辑器sublime怎么修改注释文字的颜色
当我们在使用sublime3时,可能会觉得默认注释的灰颜色看起来不舒服,此时我们可以在Preferences->color scheme下选择需要的配色方案,当然也可自己修改颜色,如下操作:
1、ctrl+shift+p 打开命令面板,搜索”install”。
此时需要等待一会,可以看左下角是否有个加载库的提示,
等加载好后,会在正中间弹出内容。
2、键入”PackageResourceViewer”,并安装之
3、安装完成后重新打开命令面板,搜索”Package ResourceViewer:Open Resource”
搜索“Color Scheme -Default”
搜索”Monokai.tmTheme”,并打开这个XML文件。因为修改的是Monkai的配色方案,所以在Preferences设置的配色方案也要选择这个。否则修改没有效果。
4、搜索关键字“comment”,找到#75715E,按照自己的喜欢修改颜色,我修改的是绿色,就改为#57A64A。
效果如下:
⑼ Python的基本术语有哪些
Python解释器
Python文本编辑器
Python代码运行助手
输入和输出
Python基础
数据类型和变量
字符串和编码
使用list和tuple
条件判断
循环
使用dict和set
函数
调用函数
定义函数
函数的参数
递归函数
高级特性
切片
迭代
列表生成式
生成器
迭代器
函数式编程
高阶函数
map/rece
filter
sorted
返回函数
匿名函数
装饰器
偏函数
模块
使用模块
安装第三方模块
面向对象编程
类和实例
访问限制
继承和多态
获取对象信息
实例属性和类属性
面向对象高级编程
使用__slots__
使用@property
多重继承
定制类
使用枚举类
使用元类
错误、调试和测试
错误处理
调试
单元测试
文档测试
IO编程
文件读写
StringIO和BytesIO
操作文件和目录
序列化
进程和线程
多进程
多线程
ThreadLocal
进程 vs. 线程
分布式进程
正则表达式
常用内建模块
datetime
collections
base64
struct
hashlib
hmac
itertools
contextlib
urllib
XML
HTMLParser
常用第三方模块
Pillow
requests
chardet
psutil
virtualenv
图形界面
网络编程
TCP/IP简介
TCP编程
UDP编程
电子邮件
SMTP发送邮件
POP3收取邮件
访问数据库
使用SQLite
使用MySQL
使用SQLAlchemy
Web开发
HTTP协议简介
HTML简介
WSGI接口
使用Web框架
使用模板
异步IO
协程
asyncio
async/await
aiohttp
⑽ pycharm里面python文件的注释颜色怎么修改
File->setting->Editor->Color Scheme->Python
选择你要调整的选项,或者直接在下方代码栏中点击要修改的类型,调整好自己要的颜色,然后点击Apply。亲测可用。