当前位置:首页 » 编程语言 » pythonextract

pythonextract

发布时间: 2022-09-26 05:08:01

‘壹’ python 不知道list里面有多少个元素 怎么提取出来

# 获取到症状

item['symptons'] = li.xpath('div/p/a/text()').extract()

#从列表中取出元素,

str=''

for s in item['symptons']:

str=str+s+' '

item['symptons']=str

print('#############')

print(item['symptons'])

(1)pythonextract扩展阅读

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。

Python有6个序列的内置类型,但最常见的是列表和元组。

序列都可以进行的操作包括索引,切片,加,乘,检查成员。

此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。

列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。

列表的数据项不需要具有相同的类型

创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示:

list1 = ['physics', 'chemistry', 1997, 2000]

list2 = [1, 2, 3, 4, 5 ]list3 = ["a", "b", "c", "d"]

‘贰’ Python打开zip文件

    Zip文件格式是通用的文档压缩标准。自1.6版本起,Python中zipfile模块能够直接处理zip文件里的数据,例如需要将对应目录或多个文件打包或压缩成zip格式,或者需要查看一个zip格式的归档文件中部分或者所有文件同时避免讲这些文件展开到磁盘上。使用ZipFile类来操作zip文件。

创建一个ZipFile对象,表示一个zip文件。

     参数file:文件的路径或者类似文件对象

     参数mode:读"r",写入"w",添加"a"

     参数compression: ZIP_STORED(无压缩),ZIP_DEFLATED(压缩,需要zlib支持)

     参数allowZip64:默认情况下报错,将其设为True,ZipFile将用ZIP64扩展进行创建文件。

下面示例演示了读取一个zip文档,将文档里所有文件解压到名为"work"的文件里。

import zipfile

if __name__ == "__main__":

    zFile = zipfile.ZipFile("F:\\txt.zip","r")

    #ZipFile.namelist():获取ZIP文档内所有文件的名称列表

    for fileM in zFile.namelist():

        zFile.extract(fileM,"F:\\work")

        zFile.close()

read(self,name,pwd=None)获取ZIP文档内文件的二进制数据

下面例子演示了使用read方法获取ZIP文档中mango.txt文件的数据,并写到.txt文件中

import zipfile 

if __name__ == "__main__":

    zipFile = zipfile.ZipFile('F:\\test.zip','r')

    data = zipFile.read("mango.txt")

    (lambda f,d:(f.write(d),f.close()))(open("F:\\.txt,'w"),data)

    zipFile.close()

write(self, filename, arcname=None, compress_type=None)将指定文件写入ZIP文档中

     参数filename:需要写入文件的路径

     参数arcname:文件写入ZIP文档后保存的文件名

     参数compress_type:压缩方法(ZIP_STORED或ZIP_DEFAULED)

下面离子演示了创建一个zip文档,将test.docx文件写入压缩文档里面。

import zipfile

if __name__ == "__main__":

    zipFile = zipfile.ZipFile("F:\\test.zip","w")

    zipFile.write("F:\\test.docx","ok.docx",zipfile.ZIP_DEFLATED)

    zipFile.close()

getinfo(name)返回一个ZipInfo类的对象。

import zipfile

if __name__ == "__main__":

    zipInfo = zipFile.getinfo(ok.docx)

    print("filename:",zipInfo.filename)

    print("date_time:",zipInfo.date_time)

常用函数

关闭归档文件,你必须在退出程序之前调用close()否则将不会写入关键记录数据。

返回一个ZipInfo对象,其中包含有关归档成员name的信息。针对一个目前并不包含于归档中的名称调用getinfo()将会引发KeyError。

   返回一个列表,其中包含每个归档成员的ZipInfo对象。如果是打开一个现有归档则这些对象的排列顺序与他们对于条目在磁盘上的实际ZIP文件中的顺序一致。

返回按名称排列的归档成员列表。

以二进制文件类对象的形式访一个归档成员。name可以是归档内某个文件的名称也可以是某个ZipInfo对象。如果包含了mode形参,则它必须为"r"(默认值)或"w"。pwd为用于解密已加密Zip文件的密码。

open()也是一个上下文 管理器,因此支持with语句:

with ZipFile('spam.zip') as myzip:

    with myzip.open('eggs.txt') as myfile:

    print(myfile.read())

如果mode为“r”则文件类对象(ZipExtFile)将只读并且提供下列方法:read(),readline(),readlines(),seek(),tell(),__iter__(),__next__()。这些对象可独立于ZipFile进行操作。

如果mode='w'则返回一个可写入的文件句柄,它将支持write()方法。当一个可写入的文件句柄被打开时,尝试读写ZIP文件中的其他文件将会引发ValueError。

当写入一个文件时,如果文件大小不能预先确定但是可能超过2GiB,可传入force_zip64=True以确保标头格式能够支持超大文件。如果文件大小可以预先确定,则在构造ZipInfo对象时应设置file_size,并将其作name形参。

从归档中提取一个成员放入当前工作目录;member必须为成员的完整名称或ZipInfo对象。成员的文件信息会尽可能精确地被提取。path指定一个要提取到的不同目录。member可以是一个文件名或ZipInfo对象。pwd是用于解密文件的密码。返回所创建的经正规化的路径(对应于目录或新文件)。

从归档中提取出所有成员放入当前工作目录。path指定一个要提取到的不同的目录。members为可选项且必须为namelist()所返回列表的一个子集。pwd是用于解密文件的密码。

警告:绝不要未经预先检验就从不可靠的源中提取归档文件。 这样有可能在  path  之外创建文件,例如某些成员具有以 "/" 开始的文件名或带有两个点号 ".." 的文件名。 此模块会尝试防止这种情况。 参见  extract()  的注释。

将归档是目录表打印到sys.stdout.

设置pwd为用于提取已加密文件的默认密码。

返回归档中文件name的字节数据。name是归档中文件的名称,或是一个ZipInfo对象。归档必须以读取或追加方式打开。pwd为用于已加密文件的密码,并且如果指定该参数则它将覆盖通过setpassword()设置的默认密码。 on a ZipFile that uses a compression method 在使用  ZIP_STORED  ,  ZIP_DEFLATED ,  ZIP_BZIP2  或  ZIP_LZMA  以外的压缩方法的 ZipFile 上调用  read()  将引发  NotImplementedError 。 如果相应的压缩模块不可用也会引发错误。

读取归档中的所有文件并检查他们的CRC和文件头。返回第一个已损坏文件的名称,在其他情况下则返回None。

将名为filename的文件写入归档,给予的归档名为arcname(默认情况下将与filename一致,但是不带驱动器盘符并会移除开头的路径分隔符)。compress_type如果给出,它将覆盖作为构造器compression形参对于新条目所给出的值。类似地,compresslevel如果给出也将覆盖构造器。归档必须使用"w","x“或"a"模式打开。

将一个文件写入归档。 内容为  data ,它可以是一个  str  或  bytes  的实例;如果是  str ,则会先使用 UTF-8 进行编码。  zinfo_or_arcname  可以是它在归档中将被给予的名称,或者是  ZipInfo  的实例。 如果它是一个实例,则至少必须给定文件名、日期和时间。 如果它是一个名称,则日期和时间会被设为当前日期和时间。 归档必须以 'w', 'x' 或 'a' 模式打开。

ZIP文件的名称

‘叁’ 如何用Python爬取搜索引擎的结果

我选取的是爬取网络知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 Python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个表为urlLib,存储已经爬取的url,是一个辅助表,在我们爬取每个网页前,需要先判断该网页是否已爬过(是否存在urlLib中)。在数据存储的过程中,使用了SQL的少量语法,由于我之前学过 MySQL ,这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是:给定初始 url,爬取这个网页中所有 url,继续对网页中的 url 递归爬取。代码逐段解析在下面,方便自己以后回顾。
1.建一个 scrapy 工程:
关于建工程,可以参看这个scrapy入门教程,通过运行:

[python] view plain
scrapy startproject ***

在当前目录下建一个scrapy 的项目,然后在 spiders 的子目录下建立一个 .py文件,该文件即是爬虫的主要文件,注意:其中该文件的名字不能与该工程的名字相同,否则,之后调用跑这个爬虫的时候将会出现错误,见ImportError。
2.具体写.py文件:

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”,在执行爬虫时对应指令将为: scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的,1s/次,可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ,有五类知道起始网页

#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库,若.db中 infoLib表不存在,则建立该表,其中主键是自增的 id(用于引擎的docId),下一列是文章的标题,然后是url,最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库,若.db中urlLib表不存在,则建立该表,其中只存了 url,保存已经爬过的url,之所以再建一个表,是猜测表的主键应该使用哈希表存储的,查询速度较快,此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数:

.py文件中的parse函数将具体处理url返回的 response,进行解析,具体代码中说明:

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url,并不是直接使用函数获取,那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是,我们对重复的 start_url 中的网址将仍然进行爬取,而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息,只是由其为跟继续往下爬
else: #否则,将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的(因为深入start_url之后的网页都会先进行判断,在爬取,在下面的for循环中判断)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息,没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页,进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

‘肆’ python必学英语单词

computational adj. 计算的,电脑的

mode n. 模式

primitive n. 原始、基元,是后续操作的基础

gigabyte n. 千兆字节,是数据单位

storage n. 储存体, 仓库

retrieve n. 检索,恢复

algorithm n. 算法

accomplish vt. 完成

scheme n. 方案, 计划, v. 设计, 体系, 结构,

compute vt. 计算

code n. 码,密码 vt. 把…编码

halt v 停止

computation n. 计算,计算方法,计算结果

knowledge n. 知识,了解

declarative adj. 说明的, 陈述的 declarative knowledge 陈述性知识

imperative adj. 命令式的,互动的 imperative knowledge 互动性知识

recipe n. 挂起,暂停

evaluate vt. 评估,评价

square root 平方根 the square root of a number x x的平方根

dece vt. 演绎,推断

capture vt. 采集,描绘,制作

fix vt. &vi.修理,安装

calculator n. 计算器

decode v. 解码, 译解 [计算机] 译码

enigma n. 谜

manipulate v. [计算机] 操作

instruction n. 指令,说明

set n.集合 predefined set 预设集合

arithmetic n. 算术,运算

store n. (在计算机里)存贮;记忆

test n.vt. 测试

execute vt. [计算机] 执行

source n. 来源 source code 源代码

sequence n. 序列, 一系列, 顺序

architecture n.体系结构

abstract n.简化,抽象

computable adj. 可计算的

mechanism n. 机制

syntax n. 语法 (规范代码的结构,成分和顺序上正确)

02

static adj. 静态的

ambiguous adj. 歧义的

unpredictable adj. 不可预知的

intend v. 打算 (打算使之成为。。。)

crash n 崩溃,停止运行

algorithmic adj.[计]算法的,规则系统的

process n.过程,进程,步骤

programming language n.程序设计语言

checker n. 检验器, 检查员

internal adj. 内部的

interpreter n. 解释器

compiler n. [计算机]编译器, 编译程序

invert v. 使反向;invert a matrix反转矩阵

abstraction n. 抽象, 参数化

converter n. 转换器 =convertor

script n. 脚本

definition n. 清晰度

command n. [计算机]指令;命令

shell n.[计算机] DOS命令 ,壳

instruct [计算机] 指示

object n. 对象

type n.类型

scalar 标量(的)

represent vt. 代表

integer [计算机] 整数

int 整型

float n. 浮点型

const abbr. 常数(=constant)

expression 表达式

denote vt. 表示,意味着

sum n. 总数(计) vi. 总计

difference n. 差

proct n. 乘积

division n. 除法

quotient n. 商

remainder n. 余数,余

power n.次方,幂

operator n. 运算符

precedence n. 优先

truncate vt. 舍位

indicate v.说明,指示

decimal n.十进制

arbitrary adj. 任意的

variable adj. 可变的 n. 变量

value n. 值

assignment n. 赋值

bind vt. 绑定

invoke [计算机] 调用

binding n.绑定关系

rebound n. 回跳,反弹

diagram n. 图解,关系图

transcript n. 抄本,脚本

compound n. 混合物,复合词

literal [计算机] 文字的,文本

quote n. 引用 quotes引号

character n. 字符

extract [计算机] 提取、取值、查看

index n.索引

boundary n. 分界线, 边界boundaries 边界

slice n. 薄的切片,一部份,锅铲 vt. 切成薄片,大幅降低

essentially adv. 基本上

‘伍’ python提取excel表中的数据两列

1、首先打开excel表格,在单元格中输入两列数据,需要将这两列数据进行比对相同数据。

2、然后在C1单元格中输入公式:=VLOOKUP(B1,A:A,1,0),意思是比对B1单元格中A列中是否有相同数据。

3、点击回车,即可将公式的计算结果显示出来,可以看到C1中显示的是B1在A列中找到的相同数据。

4、将公式向下填充,即可发现C列中显示出的数字即为有相同数据的,显示“#N/A”的为没有找到匹配数据的。

5、将C1-C4中的数据进行复制并粘贴成数值,即可完成相同数据的提取操作。
在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报、发行上市公告等。面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取。那么如何才能高效提取出pdf文件中的表格数据呢?

Python提供了许多可用于pdf表格识别的库,如camelot、tabula、pdfplumber等。综合来看,pdfplumber库的性能较佳,能提取出完整、且相对规范的表格。因此,本推文也主要介绍pdfplumber库在pdf表格提取中的作用。

作为一个强大的pdf文件解析工具,pdfplumber库可迅速将pdf文档转换为易于处理的txt文档,并输出pdf文档的字符、页面、页码等信息,还可进行页面可视化操作。使用pdfplumber库前需先安装,即在cmd命令行中输入:

pip install pdfplumber

pdfplumber库提供了两种pdf表格提取函数,分别为.extract_tables( )及.extract_table( ),两种函数提取结果存在差异。为进行演示,我们网站上下载了一份短期融资券主体信用评级报告,为pdf格式。任意选取某一表格,其界面如下:

接下来,我们简要分析两种提取模式下的结果差异。

(1).extract_tables( )

可输出页面中所有表格,并返回一个嵌套列表,其结构层次为table→row→cell。此时,页面上的整个表格被放入一个大列表中,原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素,得到的便是由原表格同一行元素构成的列表。例如,我们执行如下程序:

输出结果:

(2).extract_table( )

返回多个独立列表,其结构层次为row→cell。若页面中存在多个行数相同的表格,则默认输出顶部表格;否则,仅输出行数最多的一个表格。此时,表格的每一行都作为一个单独的列表,列表中每个元素即为原表格的各个单元格内容。若需输出某个元素,得到的便是具体的数值或字符串。如下:

输出结果:

在此基础上,我们详细介绍如何从pdf文件中提取表格数据。其中一种思路便是将提取出的列表视为一个字符串,结合Python的正则表达式re模块进行字符串处理后,将其保存为以标准英文逗号分隔、可被Excel识别的csv格式文件,即进行如下操作:

输出结果:

尽管能获得完整的表格数据,但这种方法相对不易理解,且在处理结构不规则的表格时容易出错。由于通过pdfplumber库提取出的表格数据为整齐的列表结构,且含有数字、字符串等数据类型。因此,我们可调用pandas库下的DataFrame( )函数,将列表转换为可直接输出至Excel的DataFrame数据结构。DataFrame的基本构造函数如下:

DataFrame([data,index, columns])

三个参数data、index和columns分别代表创建对象、行索引和列索引。DataFrame类型可由二维ndarray对象、列表、字典、元组等创建。本推文中的data即指整个pdf表格,提取程序如下:

其中,table[1:]表示选定整个表格进行DataFrame对象创建,columns=table[0]表示将表格第一行元素作为列变量名,且不创建行索引。输出Excel表格如下:

通过以上简单程序,我们便提取出了完整的pdf表格。但需注意的是,面对不规则的表格数据提取,创建DataFrame对象的方法依然可能出错,在实际操作中还需进行核对。

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

投稿要求:

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

‘陆’ Python中extract_tags()怎么对多行文本提取特征词而不是一行一行计算

[python] view plain
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from multiprocessing import Pool,Queue,Process
import multiprocessing as mp
import time,random
import os
import codecs
import jieba.analyse
jieba.analyse.set_stop_words("yy_stop_words.txt")

def extract_keyword(input_string):
#print("Do task by process {proc}".format(proc=os.getpid()))
tags = jieba.analyse.extract_tags(input_string, topK=100)
#print("key words:{kw}".format(kw=" ".join(tags)))
return tags

#def parallel_extract_keyword(input_string,out_file):
def parallel_extract_keyword(input_string):
#print("Do task by process {proc}".format(proc=os.getpid()))
tags = jieba.analyse.extract_tags(input_string, topK=100)
#time.sleep(random.random())
#print("key words:{kw}".format(kw=" ".join(tags)))
#o_f = open(out_file,'w')
#o_f.write(" ".join(tags)+"\n")
return tags
if __name__ == "__main__":

data_file = sys.argv[1]
with codecs.open(data_file) as f:
lines = f.readlines()
f.close()

out_put = data_file.split('.')[0] +"_tags.txt"
t0 = time.time()
for line in lines:
parallel_extract_keyword(line)
#parallel_extract_keyword(line,out_put)
#extract_keyword(line)
print("串行处理花费时间{t}".format(t=time.time()-t0))

pool = Pool(processes=int(mp.cpu_count()*0.7))
t1 = time.time()
#for line in lines:
#pool.apply_async(parallel_extract_keyword,(line,out_put))
#保存处理的结果,可以方便输出到文件
res = pool.map(parallel_extract_keyword,lines)
#print("Print keywords:")
#for tag in res:
#print(" ".join(tag))

pool.close()
pool.join()
print("并行处理花费时间{t}s".format(t=time.time()-t1))

运行:
python data_process_by_multiprocess.py message.txt
message.txt是每行是一个文档,共581行,7M的数据

运行时间:

不使用sleep来挂起进程,也就是把time.sleep(random.random())注释掉,运行可以大大节省时间。

‘柒’ python怎样压缩和解压缩ZIP文件

Python压缩ZIP文件:

importzipfile
f=zipfile.ZipFile(target,'w',zipfile.ZIP_DEFLATED)
f.write(filename,file_url)
f.close()

其中target:是压缩后要保存的路径,可以是: 'C:/temp/'
ZIP_DEFLATED:表示压缩,还有一个参数:ZIP_STORE:表示只打包,不压缩。

这个Linux中的gz跟tar格式有点类似.

write方法如果只有一个参数filename的话,表示把你filename所带的路径全部压缩到zip文件中。如果带两个参数,表示把filename路径中的那个file压缩一下并且存放到file_url中,中间没有增加任何的文件夹
如果要压缩很多的文件,循环的write就ok了, 最后close掉。
Python解压ZIP文件:

f=zipfile.ZipFile("zipfilePath",'r')
forfileinf.namelist():
f.extract(file,"temp/")

zipfilePath是压缩文件的路径
循环访问该压缩文件中的文件,并且一个一个file的解压到对应的"temp"文件夹中

‘捌’ Python extract模块到底怎样安装呢

很多安装方法的,第一种利用2.7版本自带的pip安装,在cmd下输入pip install extract。第二种方法是下载压缩包,然后解压后,在解压文件夹按住键盘shift键+鼠标右键,选择打开命令窗口,然后python setup.py install安装…方法很多,可以网络一下。或者跟着一个在线教育培训机构,例如七月在线等等

‘玖’ python .extract 啥意思

你这个问题问的有点儿不知所云了,没有python.extract这个东西,具体python中用到extract一般会是scrapy中获取meta内容。

‘拾’ 下载python然后有一堆文件要解压

python一堆文件解压方法如下。

压缩包解压要用的是zipfile这个包。

zip_file = zipfile.ZipFile(r'D:数据源XX_%s.zip'%yday)

zip_list = zip_file.namelist() # 压缩文件清单,可以直接看到压缩包内的各个文件的明细

for f in zip_list: # 遍历这些文件,逐个解压出来,

zip_file.extract(f,r'D:数据源')

zip_file.close() # 不能少!

print('昨日日志解压完成,请在文件夹中验收!') # 当然我是不需要查收的(*/ω\*)

这里的解压操作实际就相当于鼠标右键“解压到当前文件夹”的效果。

完成解压后运行.close()是个比较好的习惯,否则可能会导致包括但不限于:

文件会一直被占用着,可能无法重新打开;

在进程结束之前文件都删不掉;

文件内容不能即时 flush 到磁盘直到进程结束;

到此,整个流程在无需打开浏览器和文件夹的情况下便自动完成了。

为了方便日常运行代码,这里把上面的两个流程包装成一个函数,下载解压

#下载昨日日志

def download_XXlog():

yday = (date.today()+timedelta(days=-1)).strftime('%Y%m%d') # 获取昨日日期

r = requests.get('http://XXXXXXXX/XX_%s.zip'%yday) # 获取以日期命名的压缩包信息

with open(r'D:数据源XX_%s.zip'%yday,'wb') as code: # 将压缩包内容写入到 "D:数据源" 下,并按日期命名

code.write(r.content)

print('昨日XX日志下载完成。')

zip_file = zipfile.ZipFile(r'D:数据源XX_%s.zip'%yday)

zip_list = zip_file.namelist() # 压缩文件清单,可以直接看到压缩包内的各个文件的明细

for f in zip_list: # 遍历这些文件,逐个解压出来,

zip_file.extract(f,r'D:数据源')

zip_file.close() # 不能少!

print('昨日日志解压完成,请在文件夹中验收!')

download_XXlog()

拓展

作为拓展,这里再加一个可以根据实际情况输入(input)起始和终止日期,来下载一个特定时间段日志的函数,这里就涉及了datetime和time这两个工具包了。

热点内容
服务密码需要什么证件 发布:2024-12-29 09:42:10 浏览:225
pc辅助存储器构造 发布:2024-12-29 09:24:40 浏览:236
hadooplinux安装 发布:2024-12-29 09:23:20 浏览:824
数控编程思维 发布:2024-12-29 09:21:45 浏览:306
php时间区 发布:2024-12-29 09:20:05 浏览:928
我的世界如何做出一个好的服务器 发布:2024-12-29 09:18:45 浏览:943
哪里买安卓二手机好 发布:2024-12-29 09:06:09 浏览:533
助威战舰如何配置船长 发布:2024-12-29 09:05:37 浏览:736
如何触发安卓小游戏 发布:2024-12-29 09:00:24 浏览:955
ftpcentos虚拟用户 发布:2024-12-29 08:59:41 浏览:947