python批量处理数据

发布时间: 2023-07-04 03:42:07

‘壹’ 如何使用python来批量处理Excel中单元格的超链接

excel自带的公式或vba比python方便的多，python也还是调用com接口使用这些属性方法的。

同一文件内部处理，vba更方便。

大量excel文件批量处理，python方便。

你这个需求：

运行这个宏，就自动在A列生成了你要的目录了，点目录链接自动跳转到对应的工作表。

‘贰’ 用python批量提取pdf的表格数据，保存为excel

pdfplumber 是一个开源 python 工具库-，可以方便地获取 pdf 的各种信息，包括文本、表格、图表、尺寸等。完成我们本文的需求，主要使用 pdfplumber 提取 pdf 表格数据。

python 中还有很多库可以处理 pdf，比如 PyPDF2、pdfminer 等，本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息，包括作者、来源、日期等，并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求，再去解锁 pdfplumber 的更多用法。

‘叁’ Python数据处理：筛选、统计、连表、拼接、拆分、缺失值处理

file1_path ='E:/Users/lenovo/Desktop/中视/622召回.csv' # 源数据

格式：file1=pd.read_csv(file1_path)

pd.read_csv(file1_path,encoding='gbk')

pd.read_csv(file1_path,encoding='gbk',skiprows=[2,3])

pd.read_csv(file1_path,encoding='gbk',skiprows=lambda x:x%2==1)

pd.read_csv(file1_path,encoding='gbk',keep_default_na=False)

new=pd.DataFrame()

new.new[[0,1,2]]

new.new[0:2]

查询结果同上

new.loc[new['激活数']>1000]

loc和iloc的区别：

loc：纯标签筛选

iloc：纯数字筛选

#筛选出new的某两列

new=new.loc[:,['phone','收件人姓名']]

#筛选new的第0，1列

new.iloc[:,[0,1]]

使用‘==’筛选-筛查“崔旭”的人（只能筛查指定明确的）

#new=file1.loc[(file1['收件人姓名']=='崔旭')|(file1['收件人姓名']=='崔霞')]

#print(new)

#使用loc函数筛选-str.contains函数-筛查名字中包含'亮'和'海'的人

#new=file1.loc[file1['收件人姓名'].str.contains('亮|海')]

#print(new)

#使用loc函数筛选-str.contains函数-筛查'崔'姓的人

#new=file1.loc[file1['收件人姓名'].str.startswitch('崔')]

#print(new)

df = df[(df['DEPOSIT_PAY_TIME_x'] .notnull() ) & (df['DEPOSIT_PAY_TIME_x'] != "" )]

print("ring_time(number)=0的个数：",newdata[newdata['ring_time(number)'] ==0].count()['ring_time(number)'])

print("ring_time(number)=1,2,3的个数：",newdata[(newdata['ring_time(number)'] >0) & (newdata['ring_time(number)'] <4)].count()['ring_time(number)'])

print(newdata[newdata['ring_time(number)'] ==0])

newdata[newdata['Team']. isin (['England','Italy','Russia'])][['Team','Shooting Accuracy']]

df.年龄.value_counts()

1.修改指定位置数据的值（修改第0行，’创建订单数‘列的值为3836）

new.loc[0,'创建订单数']=3836

2.替换‘小明’-‘xiaoming’

df.replace({'name':{'小明':'xiaoming'}})

3.批量替换某一列的值（把‘性别’列里的男-male，女-felmale）

方法一：df['性别']=df['性别'].map({'男':'male','女':'female'})

方法二：df['性别'].replace('female','女',inplace=True)

或df['性别']=df['性别'].replace('female','女') 这就是inplace的作用

+df['性别'].replace('male','男',inplace=True)

4.替换列索引

df.columns=['sex','name','height','age']

或者：df.rename(columns={'性别':'sex','姓名':'name','身高':'height','年龄':'age'})

5.删除某一列

del df['player']

6. 删除某一列（方法二），删除某一行（默认axis=0删除行，为1则删除列）

删除某一列（方法二）

df.drop('性别',axis=1)

删除某一行

df.drop(1,axis=0)

file1=pd.read_csv(file1_path)

file2=pd.read_csv(file2_path)

new1=pd.DataFrame()

new1['phone']=file1['phone']

new1['contact_time']=file1['contact_time']

new2=pd.DataFrame()

new2['phone']=file2['phone']

new2['submission_audit_time']=file2['提交审核时间']

newdata=pd.merge(new1,new2,on='phone',how='left')

df=pd.concat([df1,df2],axis=0)

4.2.2 横向表连接

df=pd.concat([df1,df2],axis=1)

df1['地区'].str.split('·',3,expand=True)

df1:

df1[['城市', '城区','地址']] = df1['地区'].str.split('·', 3, expand = True)

5.1 缺失值删除

data.dropna(axis=0,subset = ["Age", "Sex"]) # 丢弃‘Age’和‘Sex’这两列中有缺失值的行

data.dropna(how = 'all') # 传入这个参数后将只丢弃全为缺失值的那些行

data.dropna(axis = 1) # 丢弃有缺失值的列（一般不会这么做，这样会删掉一个特征）

data.dropna(axis=1,how="all") # 丢弃全为缺失值的那些列

5.2 缺失值填充：pandas.DataFrame.fillna()函数

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

功能：使用指定方法填充NA/NaN值

其中inplace=True就是直接在原有基础上填满

5.3 缺失值查询：

缺失值数量查询：df.isnull().sum()

缺失值行查询：df[df.isnull().T.any()]

newdata['ring_time']=pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])

newdata['ring_time(number)']=(pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])).apply(lambda x: x.days)

new=pd.DataFrame()

new=newdata[newdata['ring_time(number)'] ==0]

new.to_csv(save_path,encoding='utf-8-sig')

将数据按行拆分并存储到不同的csv文件中：

path='C:/Users/EDZ/Desktop/工作/2021.08.19/'

for i in range(0,30):

df.loc[[i]].to_csv(path+str(i)+'.csv',encoding='gbk')

df = df[['购药日期', '星期','社保卡号','商品编码', '商品名称', '销售数量', '应收金额', '实收金额' ]]

‘肆’ python 编程问题，如何批量处理字符串变量

for i in range(1,100):
sub_name = str(i)

locals()[f"a_{str(i)}"] = eval(f"fname_{str(i)}") * eval(f"fname_{str(i+1)}")

‘伍’ Python多线程总结

在实际处理数据时，因系统内存有限，我们不可能一次把所有数据都导出进行操作，所以需要批量导出依次操作。为了加快运行，我们会采用多线程的方法进行数据处理， 以下为我总结的多线程批量处理数据的模板：

主要分为三大部分：

共分4部分对多线程的内容进行总结。

先为大家介绍线程的相关概念:

在飞车程序中，如果没有多线程，我们就不能一边听歌一边玩飞车，听歌与玩游戏不能并行；在使用多线程后，我们就可以在玩游戏的同时听背景音乐。在这个例子中启动飞车程序就是一个进程，玩游戏和听音乐是两个线程。

Python 提供了 threading 模块来实现多线程:

因为新建线程系统需要分配资源、终止线程系统需要回收资源，所以如果可以重用线程，则可以减去新建/终止的开销以提升性能。同时，使用线程池的语法比自己新建线程执行线程更加简洁。

Python 为我们提供了 ThreadPoolExecutor 来实现线程池，此线程池默认子线程守护。它的适应场景为突发性大量请求或需要大量线程完成任务，但实际任务处理时间较短。

其中 max_workers 为线程池中的线程个数，常用的遍历方法有 map 和 submit+as_completed 。根据业务场景的不同，若我们需要输出结果按遍历顺序返回，我们就用 map 方法，若想谁先完成就返回谁，我们就用 submit+as_complete 方法。

我们把一个时间段内只允许一个线程使用的资源称为临界资源，对临界资源的访问，必须互斥的进行。互斥，也称间接制约关系。线程互斥指当一个线程访问某临界资源时，另一个想要访问该临界资源的线程必须等待。当前访问临界资源的线程访问结束，释放该资源之后，另一个线程才能去访问临界资源。锁的功能就是实现线程互斥。

我把线程互斥比作厕所包间上大号的过程，因为包间里只有一个坑，所以只允许一个人进行大号。当第一个人要上厕所时，会将门上上锁，这时如果第二个人也想大号，那就必须等第一个人上完，将锁解开后才能进行，在这期间第二个人就只能在门外等着。这个过程与代码中使用锁的原理如出一辙，这里的坑就是临界资源。 Python 的 threading 模块引入了锁。 threading 模块提供了 Lock 类，它有如下方法加锁和释放锁：

我们会发现这个程序只会打印“第一道锁”，而且程序既没有终止，也没有继续运行。这是因为 Lock 锁在同一线程内第一次加锁之后还没有释放时，就进行了第二次 acquire 请求，导致无法执行 release ，所以锁永远无法释放，这就是死锁。如果我们使用 RLock 就能正常运行，不会发生死锁的状态。

在主线程中定义 Lock 锁，然后上锁，再创建一个子线程t 运行 main 函数释放锁，结果正常输出，说明主线程上的锁，可由子线程解锁。

如果把上面的锁改为 RLock 则报错。在实际中设计程序时，我们会将每个功能分别封装成一个函数，每个函数中都可能会有临界区域，所以就需要用到 RLock 。

一句话总结就是 Lock 不能套娃， RLock 可以套娃； Lock 可以由其他线程中的锁进行操作， RLock 只能由本线程进行操作。

阅读全文

热点内容

scratch少儿编程课程发布：2025-04-16 17:11:44 浏览：642

荣耀x10从哪里设置密码发布：2025-04-16 17:11:43 浏览：368

java从入门到精通视频发布：2025-04-16 17:11:43 浏览：89

php微信接口教程发布：2025-04-16 17:07:30 浏览：312

android实现阴影发布：2025-04-16 16:50:08 浏览：795

粉笔直播课缓存发布：2025-04-16 16:31:21 浏览：348

机顶盒都有什么配置发布：2025-04-16 16:24:37 浏览：213

编写手游反编译都需要学习什么发布：2025-04-16 16:19:36 浏览：819

proteus编译文件位置发布：2025-04-16 16:18:44 浏览：369

土压缩的本质发布：2025-04-16 16:13:21 浏览：596

python批量处理数据

与python批量处理数据相关的资讯