censys采集python脚本

发布时间: 2022-09-14 11:39:02

⑴ 如何用python写出爬虫

先检查是否有API

API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不过调用API接口的访问则处于网站的控制中，网站可以用来收费，可以用来限制访问上限等。整体来看，如果数据采集的需求并不是很独特，那么有API则应优先采用调用API的方式。

数据结构分析和数据存储

爬虫需求要十分清晰，具体表现为需要哪些字段，这些字段可以是网页上现有的，也可以是根据网页上现有的字段进一步计算的，这些字段如何构建表，多张表如何连接等。值得一提的是，确定字段环节，不要只看少量的网页，因为单个网页可以缺少别的同类网页的字段，这既有可能是由于网站的问题，也可能是用户行为的差异，只有多观察一些网页才能综合抽象出具有普适性的关键字段——这并不是几分钟看几个网页就可以决定的简单事情，如果遇上了那种臃肿、混乱的网站，可能坑非常多。

对于大规模爬虫，除了本身要采集的数据外，其他重要的中间数据（比如页面Id或者url）也建议存储下来，这样可以不必每次重新爬取id。

数据库并没有固定的选择，本质仍是将Python里的数据写到库里，可以选择关系型数据库Mysql等，也可以选择非关系型数据库MongoDB等；对于普通的结构化数据一般存在关系型数据库即可。sqlalchemy是一个成熟好用的数据库连接框架，其引擎可与Pandas配套使用，把数据处理和数据存储连接起来，一气呵成。

数据流分析

对于要批量爬取的网页，往上一层，看它的入口在哪里；这个是根据采集范围来确定入口，比如若只想爬一个地区的数据，那从该地区的主页切入即可；但若想爬全国数据，则应更往上一层，从全国的入口切入。一般的网站网页都以树状结构为主，找到切入点作为根节点一层层往里进入即可。

值得注意的一点是，一般网站都不会直接把全量的数据做成列表给你一页页往下翻直到遍历完数据，比如链家上面很清楚地写着有24587套二手房，但是它只给100页，每页30个，如果直接这么切入只能访问3000个，远远低于真实数据量；因此先切片，再整合的数据思维可以获得更大的数据量。显然100页是系统设定，只要超过300个就只显示100页，因此可以通过其他的筛选条件不断细分，只到筛选结果小于等于300页就表示该条件下没有缺漏；最后把各种条件下的筛选结果集合在一起，就能够尽可能地还原真实数据量。

明确了大规模爬虫的数据流动机制，下一步就是针对单个网页进行解析，然后把这个模式复制到整体。对于单个网页，采用抓包工具可以查看它的请求方式，是get还是post，有没有提交表单，欲采集的数据是写入源代码里还是通过AJAX调用JSON数据。

同样的道理，不能只看一个页面，要观察多个页面，因为批量爬虫要弄清这些大量页面url以及参数的规律，以便可以自动构造；有的网站的url以及关键参数是加密的，这样就悲剧了，不能靠着明显的逻辑直接构造，这种情况下要批量爬虫，要么找到它加密的js代码，在爬虫代码上加入从明文到密码的加密过程；要么采用下文所述的模拟浏览器的方式。

数据采集

之前用R做爬虫，不要笑，R的确可以做爬虫工作；但在爬虫方面，Python显然优势更明显，受众更广，这得益于其成熟的爬虫框架，以及其他的在计算机系统上更好的性能。scrapy是一个成熟的爬虫框架，直接往里套用就好，比较适合新手学习；requests是一个比原生的urllib包更简洁强大的包，适合作定制化的爬虫功能。requests主要提供一个基本访问功能，把网页的源代码给download下来。一般而言，只要加上跟浏览器同样的Requests Headers参数，就可以正常访问，status_code为200，并成功得到网页源代码；但是也有某些反爬虫较为严格的网站，这么直接访问会被禁止；或者说status为200也不会返回正常的网页源码，而是要求写验证码的js脚本等。

下载到了源码之后，如果数据就在源码中，这种情况是最简单的，这就表示已经成功获取到了数据，剩下的无非就是数据提取、清洗、入库。但若网页上有，然而源代码里没有的，就表示数据写在其他地方，一般而言是通过AJAX异步加载JSON数据，从XHR中找即可找到；如果这样还找不到，那就需要去解析js脚本了。

解析工具

源码下载后，就是解析数据了，常用的有两种方法，一种是用BeautifulSoup对树状HTML进行解析，另一种是通过正则表达式从文本中抽取数据。

BeautifulSoup比较简单，支持Xpath和CSSSelector两种途径，而且像Chrome这类浏览器一般都已经把各个结点的Xpath或者CSSSelector标记好了，直接复制即可。以CSSSelector为例，可以选择tag、id、class等多种方式进行定位选择，如果有id建议选id，因为根据HTML语法，一个id只能绑定一个标签。

正则表达式很强大，但构造起来有点复杂，需要专门去学习。因为下载下来的源码格式就是字符串，所以正则表达式可以大显身手，而且处理速度很快。

对于HTML结构固定，即同样的字段处tag、id和class名称都相同，采用BeautifulSoup解析是一种简单高效的方案，但有的网站混乱，同样的数据在不同页面间HTML结构不同，这种情况下BeautifulSoup就不太好使；如果数据本身格式固定，则用正则表达式更方便。比如以下的例子，这两个都是深圳地区某个地方的经度，但一个页面的class是long，一个页面的class是longitude，根据class来选择就没办法同时满足2个，但只要注意到深圳地区的经度都是介于113到114之间的浮点数，就可以通过正则表达式"11[3-4].\d+"来使两个都满足。

数据整理

一般而言，爬下来的原始数据都不是清洁的，所以在入库前要先整理；由于大部分都是字符串，所以主要也就是字符串的处理方式了。

字符串自带的方法可以满足大部分简单的处理需求，比如strip可以去掉首尾不需要的字符或者换行符等，replace可以将指定部分替换成需要的部分，split可以在指定部分分割然后截取一部分。

如果字符串处理的需求太复杂以致常规的字符串处理方法不好解决，那就要请出正则表达式这个大杀器。

Pandas是Python中常用的数据处理模块，虽然作为一个从R转过来的人一直觉得这个模仿R的包实在是太难用了。Pandas不仅可以进行向量化处理、筛选、分组、计算，还能够整合成DataFrame，将采集的数据整合成一张表，呈现最终的存储效果。

写入数据库

如果只是中小规模的爬虫，可以把最后的爬虫结果汇合成一张表，最后导出成一张表格以便后续使用；但对于表数量多、单张表容量大的大规模爬虫，再导出成一堆零散的表就不合适了，肯定还是要放在数据库中，既方便存储，也方便进一步整理。

写入数据库有两种方法，一种是通过Pandas的DataFrame自带的to_sql方法，好处是自动建表，对于对表结构没有严格要求的情况下可以采用这种方式，不过值得一提的是，如果是多行的DataFrame可以直接插入不加索引，但若只有一行就要加索引否则报错，虽然这个认为不太合理；另一种是利用数据库引擎来执行SQL语句，这种情况下要先自己建表，虽然多了一步，但是表结构完全是自己控制之下。Pandas与SQL都可以用来建表、整理数据，结合起来使用效率更高。

⑵ Python爬虫：如何在一个月内学会爬取大规模数

爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。
掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。
对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……
但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。
在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。
1.学习 Python 包并实现基本的爬虫过程
2.了解非结构化数据的存储
3.学习scrapy，搭建工程化爬虫
4.学习数据库知识，应对大规模数据存储与提取
5.掌握各种技巧，应对特殊网站的反爬措施
6.分布式爬虫，实现大规模并发采集，提升效率
- -
学习 Python 包并实现基本的爬虫过程
大部分Python爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。
Python爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。
如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事网络、腾讯新闻等基本上都可以上手了。
当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。
- -
了解非结构化数据的存储
爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。
开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。
当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。
- -
学习 scrapy，搭建工程化的爬虫
掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。
scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。
学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。
- -
学习数据库基础，应对大规模数据存储
爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。
MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。
因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。
- -
掌握各种技巧，应对特殊网站的反爬措施
当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。
遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。
往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了。
- -
分布式Python爬虫，实现大规模并发采集
爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。
分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。
Scrapy 前面我们说过了，用于做基本的

⑶ 如何评价利用python制作数据采集,计算,可视化界面呢

先来设置两个url地址，第一个用于第一次访问，这样可以获得网站服务器发来的cookie，第二个网址是用于登陆的地址
引入两个模块，cookielib和urllib2
接着，我们安装一个cookie处理器，代码如下，这个代码很多人不太能读懂，其实你会用就可以了，他们就是这个固定的形式，顶多改改变量的名字。你复制下来以后自己用就可以了，用多了，你再去看代码的意义，你就都懂了。
然后我们先访问一下网站，获得一个cookie，你不用管这个cookie该怎么弄，前面设置的cookie处理器会自动处理。
接着，我们写一下postdata，也就是你要post的数据，因为我们打算登陆网站，所以postdata里肯定有用户名和密码，那么怎么知道该怎么写postdata呢？看你抓包得到的post数据。下面第一幅图是httpwatch抓包截图，点击postdata，看到post的数据，然后我们看第二幅图，就是python的写法。你自己感受一下。
写完postdata以后，我们要将postdata转码一下，让服务器可以解读postdata数据
接着设置headers信息，headers也是抓包得到的。同样的方式，你去写header内的信息
然后我们通过request方法来登陆网站，并返回数据，返回的数据存储在request中
通过rulopen方法和read方法来读取数据，并打印出来。
我们看到输出的结果，这说明我们虽然正确的模拟了登陆网站需要的post信息，但是没有考虑到登陆网站是需要验证码的，后期我们会看到如何处理验证码，如果你拿这个教程去处理没有验证码的登陆问题，那么你现在已经成功了。

⑷ python自动化脚本怎么编写

首先你需要在北鲲云超算上申请python这款软件，然后选择配置后就可以直接开始作业了，运行软件后就可以开始搭建脚本界面，编写脚本代码，用超算跑作业很方便，直接线上就可以使用，不需要下载到本地，而且计算效率非常的高。

⑸ 如何优雅地使用python采集阿里巴巴百万商户信息

Sublime是一款轻量文本编辑工具，可以用来快速编写python脚本，这里就不多作介绍，详情自己网络。本期所需的工具包是selenium，用户需要自行安装，可以通过pip命令快速安装selenium，如下：

因为本人先前已经成功安装selenium，所以这里提示“已经安装成功”，当然要使用pip命令，必须提前安装pip，自行网络，用户安装完上面的所有工具后我们就可以开始本期的装逼之旅了。

第一步、查看www.1688.com网页，确定抓取范围。我们打开阿里巴巴采购首页，我们发现阿里巴巴提供了厂商的搜索接口，如下所示：

第二步、我们试着搜索“化工”，查看得到的结果，如下：

第三步、我们可以看到，我们要的基本信息都存在了，但是联系方式没有，我们任意打开一个厂商的页面，可以看到“联系”这个导航栏项目，点击联系，就可以看到厂商的联系方式，我们在将注意力放到网址url上，我们可以看到，联系这个页面的URL呈现规律性，如www.xxx.1688.com/page/contactinfo.htm，并且联系电话的位置是最前的，这极大地方便了我们采集我们想要的信息，如下：

第四步、啰嗦了那么多，直接开始我们的代码：

首先使用python的selenium包打开一个Firefox浏览器窗口：

1
2
3
4
5
6
7
8
9

#! /usr/bin/env python
#coding:utf-8

from selenium import webdriver
import sys
# 解决中文报错的问题
reload(sys)
sys.setdefaultencoding('utf-8')
driver = webdriver.Firefox()

以上程序就可以打开Firefox浏览器窗口，并且打开的浏览器窗口对象为driver，接下来我们模拟登录，找到阿里巴巴模拟登录的地址为，我们通这个地址模拟登录，并通过selenium的find_element_by_name方法获取网页中的DOM节点，有学过JavaScript的同学应该就会了解DOM节点，具体的代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

url = '
k.635.1998096057.d1'
loginUrl = 't=true&redirect_url=
3Dlogin_target_is_blank_1688%26tracelog%3Dmember_signout_signin_s_reg'
driver = webdriver.Firefox()
time.sleep(3)
driver.get(loginUrl)
time.sleep(5)
driver.find_element_by_name("TPL_username").send_keys('这里是你的淘宝账号')
driver.find_element_by_name("TPL_password").send_keys('这里是你的淘宝密码')
driver.find_element_by_name("TPL_password").send_keys(Keys.ENTER)
time.sleep(5)
driver.get(url)

模拟登录成功后我们让页面自动跳转到我们刚才搜索“化工”厂商的那个页面，其中使用了time包里的sleep函数，是为了防止在网速较差的时候，网页加载速度较慢，源码还未下载完毕就执行查找节点的命令导致程序运行失败。接下来我们要做的是查找厂商的主页并找到其联系方式，并且发现厂商找到的结果共有100页，在这里，为了使用方便，我们直接使用for循环来模拟点击下一页进行采集。具体的所有源代码如下所示：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134

#! /usr/bin/env python
#coding:utf-8

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import time
import urllib
import urllib2
import sys
import os
import re
import csv
import numpy as np

# 解决中文报错的问题
reload(sys)
sys.setdefaultencoding('utf-8')

csvfile = file('data.csv', 'wb')
writer = csv.writer(csvfile)
writer.writerow((u'企业名称'.encode('gbk'), u'主页'.encode('gbk'), u'产品'.encode('gbk')
, u'联系人'.encode('gbk'), u'电话'.encode('gbk'), u'地址'.encode('gbk')))
url = '
635.1998096057.d1'
loginUrl = '
full_redirect=true&redirect_url=
_is_blank_1688%26tracelog%3Dmember_signout_signin_s_reg'
driver = webdriver.Firefox()
time.sleep(3)
driver.get(loginUrl)
time.sleep(5)
driver.find_element_by_name("TPL_username").send_keys('这里输入你的淘宝账号')
driver.find_element_by_name("TPL_password").send_keys('这里输入你的淘宝密码')
driver.find_element_by_name("TPL_password").send_keys(Keys.ENTER)
time.sleep(5)
driver.get(url)
time.sleep(15)
user_agents = [
'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.
0.0.11',
'Opera/9.25 (Windows NT 5.1; U; en)',
'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR
2.0.50727)',
'Mozilla/5.0 (compatible; Konqueror/3.5; linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-se
curity Firefox/1.5.0.12',
'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chr
omium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
"Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",
]
for page in xrange(1, 100):
try:
title = driver.find_elements_by_css_selector("a[class=list-item-title-text]")
proct = driver.find_elements_by_xpath("//div[@class=\"list-item-detail\"]/div[1]
/div[1]/a[1]")
print len(title)
pattern = re.compile('<div class="contcat-desc".*?>(.*?)</div>', re.S)
telPattern = re.compile('<dd>(.*?)</dd>', re.S)
membernamePattern = re.compile('<a.*?class="membername".*?>(.*?)</a>', re.S)
addressPattern = re.compile('"address">(.*?)</dd>', re.S)
for i in xrange(len(title)):
titleValue = title[i].get_attribute('title')
hrefValue = title[i].get_attribute('href') + 'page/contactinfo.htm'
proctValue = proct[i].text
agent = np.random.choice(user_agents)
headers = {'User-Agent' : agent, 'Accept' : '*/*', 'Referer' : ''}
request = urllib2.Request(hrefValue, headers=headers)
response = urllib2.urlopen(request)
html = response.read()
info = re.findall(pattern, html)
try:
info = info[0]
except Exception, e:
continue
tel = re.findall(telPattern, info)
try:
tel = tel[0]
tel = tel.strip()
tel = tel.replace(' ', '-')
except Exception, e:
continue
membername = re.findall(membernamePattern, html)
try:
membername = membername[0]
membername = membername.strip()
except Exception, e:
continue
address = re.findall(addressPattern, html)
try:
address = address[0]
address = address.strip()
except Exception, e:
address = ''
print 'tel:' + tel
print 'membername:' + membername
data = (titleValue.encode('gbk', 'ignore'), title[i].get_attribute('href'), pr
octValue.encode('gbk', 'ignore'), membername, tel, address)
writer.writerow(data)
for t in title:
print t.get_attribute('title')
print t.get_attribute('href') + 'page/contactinfo.htm'
print len(proct)
for p in proct:
a = repr(p.text)
a = a.encode('gbk', 'ignore')
print a
print '#' * 50
js = 'var q=document.documentElement.scrollTop=30000'
driver.execute_script(js)
time.sleep(2)
page = driver.find_elements_by_css_selector("a[class=page-next]")
page = page[0]
page.click()
time.sleep(10)
except Exception, e:
print 'error'
continue
csvfile.close()
driver.close()

⑹ 对于数据抓取和采集，是用python好还是php好

1. python不是脚本语言，虽然他是动态解释的。他可以完成系统级的开发。
2. python是跨平台的，你可以运用python在mac,在linux，在win下，甚至是s60手机中开发软件；PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些，语言结构简练，最简单的，PHP的$烦死你。
4. web开发上，PHP应用较广，有很多现成的代码和模版，python这方面欠缺，虽然他有很多很好的框架。比如django。
5. python因其应用范围，学习时间更长，当然如果你只玩网站建设，像上面有人说的webpy学习周期很短，基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术，建议python。如果像尽快出网站建议PHP。

⑺ Python爬虫是什么

爬虫一般是指网络资源的抓取，由于Python的脚本特性，易于配置对字符的处理非常灵活，Python有丰富的网络抓取模块，因此两者经常联系在一起Python就被叫作爬虫。

Python爬虫的构架组成：

⑻ 脚本怎么写脚本如何写

1、首先你要确定你所谓的脚本是那种类型的脚本，根据你的使用目的决定，例如你要用脚本实现自动化操作，例如在抖音上自动给目标用户留言重复操作等等，你需要用按键精灵脚本，你需要用爬虫采集某个网站的数据，你需要用python脚本。

2、确定你的需求所需要的脚本类型后，为了达到目标你有两种做法：

（1）自学脚本开发，很漫长，一般人也无法忍耐这个过程，学完了也需要大量的实践才能手到擒来，大约需要1-3年不等。

（2）如果你要自学，请到w3cshool 等专业化系统的培训网站去学习，也可以加入某个专业技术培训社群学习（威 hellohelloworld），炮哥可以给你推荐一些优质社群。

（3）找专业的开发者快速制作脚本，快速达到你的使用目的，发挥脚本软件的价值和收益，依然可以找炮哥解决，炮哥十年的开发经验并非浪得虚名，百闻不如一见，聊过便知。

3、脚本的开发涉及到的大概步骤和工具我简单说下

（1）脚本开发工具，一般用记事本、sublime等

（2）调试运行工具：需要安装对应的脚本运行环境才可以，例如按键精灵开发工具、python运行环境。

⑼ python有哪些脚本

Python常用的30个脚本：

1、冒泡排序

2、计算x的n次方的方法

3、计算a*a + b*b + c*c + ……

4、计算阶乘 n!

6、把一个list中所有的字符串变成小写：

7、输出某个路径下的所有文件和文件夹的路径

8、输出某个路径及其子目录下的所有文件路径

9、输出某个路径及其子目录下所有以.html为后缀的文件

10、把原字典的键值对颠倒并生产新的字典

censys采集python脚本

与censys采集python脚本相关的资讯