python反序列化
一、Python简介
Python是一种用来编写应用程序的高级程序设计语言,TIOBE程序语言排行榜2015年12月的排名如下:
Python实现强势逆袭,而且我相信,随着时间的推移,国内Python语言未来前景也是一片向好。
Python的特点是优雅简单,易学易用(虽然我感觉还是有一些概念不容易理解),Python的哲学是尽量用最少的,最简单易懂的代码实现需要的功能。Python适宜于开发网络应用,脚本写作,日常简单小工具等等。Python的缺点是效率较低,但是在大量的场合效率却不是那么重要或者说Python不是其性能瓶颈,所以不要太在意。其次是2.x-3.x的过渡使得许多3.x还缺少很多2.x下的模块,不过也在完善中。其次就是源代码无法加密,发布Python程序其实就是发布源代码。
二、基础语法要点
1.如果一个字符串中有许多需要转义的字符,而又不想写那么多'',那么可以用 r'...' 表示 '...'内的内容不转义。
2.Python可用'''...'''来表示多行内容,如:
123456>>>print('''line1line2line3''')line1line2line3
3.Python的逻辑运算and, or, not 分别对应C语言中的&&, ||, !.
4.Python的整数与浮点数大小都没有范围。
5.Python中除法有两种: '/'除出来必是浮点数, '//'除出来是整数,即地板除。
6.Python中一切皆引用。每个对象都有一个引用计数器(内部跟踪变量)进行跟踪,引用计数值表示该对象有多少个引用,当初次产生赋给变量时,引用计数为1,其后没进行下列行为中的任意一种都会增加引用计数:
123赋值: a=b用作函数参数传递: func(a)成为容器对象的一个元素: lis=[1,2,a]
以下任意一种行为都会减少引用计数:
1234del销毁:dela变量另赋给其他对象:a=False对象从容器中删除: lis.remove(a)身在的容器被销毁:dellis
7.深拷贝与浅拷贝的概念与对比,有点复杂,看这篇文章
8.list,tuple和dict,set
list:为列表,是一个有序集合,类似于数组但又比数组功能强大,可以随时append,pop元素,下标从0开始,且下标为加n模n制,即lis[-1] = lis[len-1],下标范围[-len,len-1].
tuple:为元组,类似于list,但list为可变类型,而tuple不可变,即没有append,pop等函数。一个建议是为了安全起见,能用tuple代替list尽量用tuple。如果tuple只有一个元素,要写成如(1,)以避免歧义。
dict:字典类型,存放key-value键值对,可以根据key迅速地找出value,当然,key必须是不可变类型,如下是错误的:
12345>>> dic={[1,2]:'value'}Traceback (most recent call last):File"<pyshell#10>", line1,in<mole>dic={[1,2]:'value'}TypeError: unhashabletype:'list'
list与dict的优劣对比:
1234567dict:1.插入,查找速度快,跟key的数目无关2.需占用大量内存,内存浪费严重list:1.插入,查找速度慢,O(n)的复杂度,随元素个数增加而增加2.占用内存小
dict内部存放的顺序和key放入的顺序是没有关系的
set:set与dict类似,相当于只有key没有value的dict,每个key不同,set间有 &, | 等操作对应集合的交,并操作。
三、函数
1.函数是对象,函数名即是指向对应函数对象的引用,所以可以将函数名赋给一个变量,相当于给函数起一个‘别名’。
123>>> mmm=max>>> mmm(1,2,3)3
2.Python函数可以返回”多个值“,之所以打引号,是因为实际上返回的多个值拼成了一个元组,返回这个元组。
3.定义默认参数需要牢记:默认参数必须指向不变对象。否则第一次调用和第二次调用结果会不一样,因为可变的默认参数调用后改变了。
4.可变参数:传入的参数个数是可变的,可以是0个或多个。可变参数会将你传入的参数自动组装为一个tuple。在你传入的list或tuple名字前加一个 * 即说明传入的是可变参数。习惯写法为*args。
5.关键字参数:传入0个或多个含参数名的参数,这些参数被自动组装成一个dict。习惯写法**kw,如**a表示把a中所有的键值对以关键字参数的形式传入kw,获得一个dict,这个dict是a的一份拷贝,对kw改动不会传递到a
6.命名关键字在函数定义中跟在一个*分割符后,如
12deffunc(a,b,*,c,d):pass
c,d为命名关键字参数,可以限制调用者可以传入的参数名,同时可以提供默认值。
7.参数定义顺序:必选参数,默认参数,可变参数/命名关键字参数,关键字参数。
8.切片操作格式为lis[首下标:尾下标:间隔],如果都不填,即lis[::]则代表整个容器lis
9.用圆括号()括起来一个列表生成式创建一个生成器generator,generator保存生成算法,我们可以用next(g)取得生成器g的下一个返回值。生成器的好处就是我们不需要提前生成所有列表元素,而是需要时再生成,这在某些情况下可以节省许多内存。算法也可以不是列表生成式而是自定义函数,只需在函数定义中包含yield关键字。
10.map()和rece(): 二者都是高阶函数。map()接收两个参数,一个是函数,一个是Iterable序列,map将传入的函数依次作用在序列每一个元素上,并把结果作为新的Iterator返回。rece()类似累积计算版的map(),把一个函数作用在一个序列上,每次接收两个参数,将结果继续与序列的下一个元素做累积计算。
利用map和rece编写一个str2float函数,如把字符串'123.456'转换成浮点数123.456:
123456789101112131415(s):deff1(x,y):returnx*10+ydefchar2num(s):return{'0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9}[s]deff2(x,y):returnx*0.1+ya,b=s.split('.')print('a=',a)print('b=',b)returnrece(f1,map(char2num,a))+0.1*rece(f2,map(char2num,b[::-1]))print('str2float('123.456') =', str2float('123.456'))
11.fliter()函数过滤序列,类似于map()作用于每一元素,根据返回值是True或者False决定舍弃还是保留该元素。函数返回一个Iterator。
12.sorted()函数可实现排序,类似于C++库中的sort()函数,但是比其更加简洁,语法为sorted(lis,key=func,reverse=T/F)
key函数可实现自定义的排序规则,reverse表示升序还是降序。
13.一个函数可以返回一个函数,但是返回时该函数并未执行,所以返回函数中不要引用任何可能发生变化的变量,否则会出现逻辑错误。
14.装饰器(decorator): 当需要增强函数的功能却不希望修改函数本身,那么可以采用装饰器这种运行时动态增加功能的方式,增加的功能卸载装饰器函数中。如在执行前后打印'begin call'和'end call',可以这样做:
12345678910111213141516importfunctoolsdeflog(func):@functools.wraps(func)#为了校正函数签名,最好写上defwrapper(*args,**kw):print('begin call')f=func(*args,**kw)print('end call')returnfreturnwrapper@logdefhah():print('hahahaha')hah()
123
begin callhahahahaend call
15.偏函数: functools.partial(),作用是将一个函数的某些参数固定住,作为新函数的参数,即固定住该参数,返回一个新函数,使调用更简单。
四、面向对象编程
1.Python实例变量可以自由地绑定任何属性
2.为了不让内部属性不被外部访问,在属性的名称前加上两个下划线__,这样就变成了一个私有变量(private),注意,不能直接访问不代表一定不能访问,事实上,加双下划线后Python就会将其改名为‘_class名__name’,所以还是可以这样来访问这个‘私有’变量。
3.对于静态语言,如果要求传入一个class类型的对象,那么传入的对象必须是class类型或者其子类,否则将无法调用class中的方法,而Python这样的动态语言有‘鸭子类型’一说,即不一定要传入class类型或其子类,而只要保证传入的对象中有要使用的方法即可。
4.如果想要限制实例可以绑定的属性,那么在定义class时定义一个__slots__变量即可,例如:
12classStudent(object):__slots__=(‘name’,’age’)
注意,__slots__限制的属性对当前类实例起完全限制作用,且与子类共同定义其__slots__,也就是说子类可以定义自己的__slots__,子类实例允许定义的属性就是自身的__slots__加上父类的__slots__,即并集。
5.@ property装饰器可以使一个getter方法变成属性,如果方法名为me,那么@me.setter装饰器则可使一个setter方法变成属性。这样可以使代码更简短,同时可对参数进行必要的检查。
6.通过多重继承,可使子类拥有多个父类的所有功能。
7.在类中__call__方法可使实例对象像函数那样直接调用,作用即是该方法定义的过程。
8.ORM(Object Relational Mapping 对象关系映射),就是把关系数据库的一行映射为一个对象,也就是一个类对应一个表。ORM的实现需要通过metaclass元类修改类的定义。元类可以改变类创建时的行为。
五、调试
1.Python调试方法:
(1)直接打印
(2)断言
(3)pdb
(4)IDE
六、IO编程
1.序列化: 把变量从内存中变成可存储或传输的过程称之为序列化。Python用pickle模块实现序列化。序列化之后,就可以把序列化后的内容存储到磁盘上或者通过网络进行传输。pickle.mps()将对象序列化成一个bytes,而pickle.loads()可以根据bytes反序列化出对象。
2.pickle虽好,但是它专为Python而生,所以要在不同语言间传递对象,最好还是xml或者json,而json表示格式是一个字符串,更易读取,且比xml快,所以更加适宜于对象序列化。Python内置了json模块,相应方法仍然是mps()和loads()。
3.但是在默认情况下,有些对象是无法序列化的,所以我们有时还需要定制转换方法,告诉json该如何将某类对象转换成可序列为json格式的{}对象。如下即是一个转换方法:
123456defmantodict(std):return{'name': std.name,'age': std.age,'id': std.id}
七、进程与线程
1.Python用mutiprocessing模块来实现多进程。
2.如果要大量创建子进程,可以使用进程池:
1frommultiprocessingimportPool
示例如下:
12345678....p=Pool(4)foriinrange(5):p.apply_async(long_time_task, args=(i,))print('Waiting for all subprocesses done...')p.close()p.join()print('All subprocesses done.')
要使用进程池需新建Pool对象,对Pool对象调用join()使等待池中所有子进程运行完毕,调用join()方法之前必须调用close(),且此后无法再新加子进程。
3.使用subprocess模块可以方便的启动并管理一个子进程,控制其输入输出。
4.进程间通信使用Queue,Pipes实现。
5.threading模块管理线程。threading.lock()创建线程锁,防止同时访问互斥资源造成的错误,示例如下:
1234567lock=threading.Lock()...lock.acquire()...change(mutex)...lock.release()
6.ThreadLocal可以解决参数在一个线程中各个函数之间互相传递的问题。
7.managers模块实现分布式进程。
八、正则表达式与常用内建模块
1.re模块进行正则表达式编译和匹配,如果该表达式需要匹配很多次,那么最好进行编译从而大大节省时间。
正则表达式匹配邮箱例子:
12345678910importrehah=re.compile('[0-9a-zA-Z]+[.[0-9a-zA-Z]+]*@[0-9a-zA-Z]+.[a-z]{2,3}')print(hah.match('[email protected]').group())print(hah.match('[email protected]').group())i=1whilei <10:r=input('请输入邮箱:')print(hah.match(r).group())i=i+1
2.datetime模块进行日期和时间的处理,每一个时间对应一个timestamp,我们把1970年1月1日 00:00:00 UTC+00:00时区的时刻称为epoch time,记为0(1970年以前的时间timestamp为负数),当前时间就是相对于epoch time的秒数,称为timestamp。字符串和datetime也可以相互转换,采用strptime()方法,字符串转换为datetime时需要设定一个识别格式,其中
1%Y-%m-%d%H:%M:%S
分别表示年-月-日 时-分-秒。
从datetime得出月份,星期等字符串用strftime()方法,其中:
1%a,%b%d%H:%M
分别表示星期, 月份 日期 时:分。
示例:
12345678910fromdatetimeimportdatetimer='2015-11-23 12:01'dt=datetime.strptime(r,'%Y-%m-%d %H:%M')print(dt)week=dt.strftime('%a %b %d, %H:%M')print(week)2015-11-2312:01:00Mon Nov23,12:01
3.collections是Python内建的一个集合模块,提供了许多有用的集合类。
4.Base64是一种任意二进制到文本字符串的编码方法,常用于在URL、Cookie、网页中传输少量二进制数据。
5.struct模块用来解决bytes和其他二进制数据类型的转换。
6.Python的hashlib提供了常见的哈希算法,如MD5,SHA1等等。hashlib实现简单登录:
importhashlibdb={'michael':'','bob':'','alice':''}defget_md5(ostr):md5=hashlib.md5()md5.update(ostr.encode())returnmd5.hexdigest()deflogin(user, password):r=get_md5(password)fornameindb:ifdb[name]==r:returnTruereturnFalseprint(login('bob','abc999'))True
7.Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。
8.urllib提供了一系列用于操作URL的功能。如GET,POST...
9.PIL(Python Imaging Library Python图像库)是一个强大的图像处理标准库,功能强大却又简单易用。现在的名字叫做Pillow。可以如下安装Pillow:
1pip3 install pillow
从下面生成数字验证码的程序可以窥其一斑:
九、网络编程和电子邮件
1.网络编程主要是TCP和UDP的编程,示例见【Python网络编程】利用Python进行TCP、UDP套接字编程
2.SMTP是发送邮件的协议,Python内置对SMTP的支持,可以发送纯文本邮件、HTML邮件以及带附件的邮件。Python对SMTP支持有smtplib和email两个模块,email负责构造邮件,smtplib负责发送邮件。Python内置一个poplib模块,实现了POP3协议,可以直接用来收邮件。由于现在绝大多数大型邮件服务商都采取了反垃圾邮件措施,所以这部分的简单实验并没有成功,还需进一步研究,等遇到具体情况再说。
3.Python内嵌了sqlite数据库,还可以自行安装连接mysql,MySQL是当前最流行的开源数据库,在行业内有着广泛的应用。
十、Web开发和异步IO
1.WSGI(Web Server Gateway Interface) 服务器网关接口。
2.Python web 开发框架:
-Flask:流行的Web框架
-Django:全能型Web框架
-web.py:一个小巧的Web框架
-Bottle:和Flask类似的Web框架
-Tornado:Facebook的开源异步Web框架
3.协程
B. python中的writepickle语句,怎么用
pickle是为了序列化/反序列化一个对象的,可以把一个对象持久化存储。
比如你有一个对象,想下次运行程序的时候直接用,可以直接用pickle打包存到硬盘上。或者你想把一个对象传给网络上的其他程序,可以用pickle打包,然后传过去,那边的python程序用pickle反序列化,就可以用了。
用法上,它主要有两个函数:load和mp,load是从序列化之后的数据中解出来,mp是把对象序列化。看看帮助就好了,很简单的。
C. python如何把一个序列化的自定义类对象存到文件
Python有专门的序列化模块pickle用来序列化/反序列化对象,可以查一下它的使用。
pickle是纯Python写的,它还有个替代模块cPickle,是C语言写的,速度快很多。
D. python有没有类似php的serialize的函数
phpserialize 可以作为单纯的 Python 扩展件来使用,不过,通常还是经常应用在 Python 编程环境和 PHP 编程环境相互之间需要进行数据交换时。
phpserialize 安装很简单,在 http://pypi.python.org/pypi/phpserialize 下载后,解压,然后 # python setup.py install 即可。
phpserialize 使用起来也很简单。
先导入该库: import phpserialize
利用 mps 进行序列化(变量 -> 格式化文本): phpserialize.mps(vary)
使用 loads 进行反序列化(格式化文本 -> 变量):phpserialize.loads(formated_string)
E. python里pickle是什么意思
pickle模块是对Python对象结构进行二进制序列化和反序列化的协议实现,就是把Python数据变成流的形式。
F. python哪些标准库
标准库比较多 功能也不同:
标准库
sys
系统相关的参数和函数。 sys 库一般用来访问和修改系统相关信息,比如查看 python 版本、系统环境变量、模块信息和 python 解释器相关信息等等。
os
操作系统接口模块。这个库提供了访问操作系统相关依赖的方式,比如输入输出操作、读写操作、操作系统异常错误信息、进程线程管理、文件管理、调度程序等等。
re
正则表达式操作。这个库是我喜欢并且经常会用到的库,在对大量字符串进行处理的时候用正则表达式是最快速有效的方式,但是正则表达式的学习曲线较高,有兴趣的朋友可以访问这个网站学习。
math
数学函数库。 math 库提供了对 C 语言标准定义的数学函数访问,比如数论(Number-theoretic)的各种表示方法、幂和对数函数(Power and logarithmic functions)、三角函数(Trigonometric functions)、常量圆周率(π)和自然常数(e)等等。
random
生成伪随机数。
伪随机数与随机数(真随机数)不同的是执行环境,随机数是真实世界中通过物理过程实践得出结论,而伪随机数是通过计算机的特定算法生成的数,所以这个过程是可预测的、有规律的,只是循环周期较长,并不能与现实场景相切合。
random库提供生成随机数,可以模拟现实世界中随机取数、随机抽奖等等。
logging
日志记录工具。这个库提供了对应用程序和库函数的日志记录,日常开发中我们经常需要通过日志打印出当前程序的运行状态,实时查看可能出现的堆栈异常和错误信息。
json
Json 编码和解码器。 json 库提供了对 json 数据的支持,日常开发中我们做前后端分离需要对传输数据 json 进行序列化和反序列化操作,以保证对数据的完整性和有效性,而序列化和反序列化其实就是编码和解码的过程。
pickle
Python 对象序列化库。 pickle 库支持对 python 对象进行序列化和反序列化操作,当我们需要将处理好的对象保存到文件或数据库中时,就可以将其序列化成二进制数据,从而更好的保存起来。
shelve
Python 对象持久化。简单的数据存储方案。
socket
底层网络接口。 socket(套接字) 库提供了标准的BSD(伯克利套接字) Socket API,可以通过访问底层操作系统 Socket 的相关接口进行网络通讯。
datetime
基本日期和时间类型库。该库提供了各种简单和复杂的方式处理日期和时间,日常我们会用时间测算时间消耗、复杂度,对存储的创建时间和修改时间也需要进一步说明,对计时器的描述和控制也需要用到该库。
hashlib
安全哈希和消息摘要。摘要算法 其实就是对某些数据进行加密(不可逆的加密算法),因为被加密的数据无法破解,所以就能防止被篡改。常见的摘要算法有 MD5、SHA1,一般我们会用 MD5 对用户口令进行加密,防止盗用后被轻易破解;而 SHA1 与 MD5 类似,但是 SHA1 会产生更长的长度,也更安全,但是算法的复杂性通常伴随着存储空间和时间的消耗。要说比SHA1更长的字符长度,还有 SHA224、SHA256、SHA384 和 SHA512,看名字就能知道。
大家都知道无论算法生成的字符长度如何都有可能发生碰撞(被破解),这是不可避免的,所以具体场景具体情况而定。
configparser
配置文件解析器。 configparser 库可以轻松定制配置文件,通过解析配置文件的信息我们就可以全局访问相关配置。
urllib
URL 处理模块。 urllib 库集成了处理 URLs(统一资源定位符)的各种模块:
URL urllib.request URL robots.txt urllib 库对访问网络有很好的支持,提供了对数据的访问和处理、文件的上传和下载、记录 cookie 和 session 等等。
itertools
为高效循环而创建迭代器的函数。 itertools 库也是经常需要用到,当我们要对某些数进行 for-in 时就需要先将其处理成一个可迭代对象,之后我们才能进行遍历操作。
collections
容器数据类型库。 collections 库提供了对所有容器数据类型的支持,包括 dict, list, set 和 tuple。我们可以用此库对不同数据类型进行操作,常有的函数方法有这些:
namedtuple() 创建命名元组子类的工厂函数 deque 类似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop) ChainMap 类似字典(dict)的容器类,将多个映射集合到一个视图里面 Counter 字典的子类,提供了可哈希对象的计数功能 OrderedDict 字典的子类,保存了他们被添加的顺序 defaultdict 字典的子类,提供了一个工厂函数,为字典查询提供一个默认值 UserDict 封装了字典对象,简化了字典子类化 UserList 封装了列表对象,简化了列表子类化 UserString 封装了列表对象,简化了字符串子类化 functools
高阶函数和可调用对象上的操作。该库主要调用高阶函数,是常规函数的一种补充。目前库中包含以下几种函数:
cmp_to_key lru_cache total_ordering partial partialmethod rece singledispatch update_wrapper wraps threading
线程并行库。 threading 库支持线程和多线程的操作,针对多线程并发的问题可以给数据加同步锁,一次只能让一个线程处理数据,从而避免出现数据读写混乱。
在 CPython 解释器上,因为GIL(全局解释器锁)锁机制的存在的,被设计成线程安全,所以同一时间只能执行一个线程,这就导致了多线程不能发挥出计算机的多核特性。
multiprocessing
进程并行库。 multiprocessing 库与 threading 库很类似,不同的是进程库可以创建子进程避开 GIL,从而弥补线程库存在的劣势和发挥计算机的多核特性。
timeit
测量小代码片段的执行时间。此库主要用来计算运行代码的时间消耗,支持多种方式传入参数。
atexit
退出处理器。当处理一个函数需要立马退出时可以使用该库。
abc
抽象基类。 abc 库定义抽象基类,以便其他类派生出新类。比如 collections 容器库中就有此派生出的 collections.abc 类,派生出来的类可以进一步实现。
asyncio
异步IO库。 asyncio 库是一个用 async/await 关键字编写并发的库,为多个异步框架提供基础功能,能够实现高性能的网络、Web服务器、数据库连接和分布式任务队列等。
浅层和深层复制操作。 库提供对对象的拷贝,我们都知道要制作对象副本,是无法通过简单值传递创建新变量的方式做到,因为新变量所指向的内存空间依旧是原对象本身,所以对新变量进行任何操作都会改变原对象。那么, 库就提供了制作对象副本的各种方法,会开辟一个新的内存空间存放副本对象,修改操作不会对原对象有任何干预。
csv
csv(Comma Separated Values)文件读写库。此库支持以纯文本的形式存储表格数据(数字和文本)。
operator
标准运算符替代函数库。此库是将 python 自有的运算符作为有效函数,比如表达式 x+y 可以用函数 operator.add(x, y) 表示;比如表达式 a*b 可以用函数 operator.mul(a, b) 表示,等等。
enum
枚举库。 enum 库支持创建枚举类来存储大量同类型的不可变常量,以便其他函数调用。创建出来的枚举类是可迭代对象,所以可以用 for-in 枚举出所有常量。
heapq
堆队列算法。这个模块提供了堆队列算法的实现,也称为优先队列算法。优先队列中的每个元素都有各自的优先级,优先级最高的元素最先得到服务。所以当我们要求前n最大/最小值的时候就可以用此算法来实现, heapq 库中也提供了相应函数实现。
http
HTTP 模块。 http 模块是一个包,收集了多个处理超文本传输协议的模块:
urllib.request http 模块通过 http.HTTPStatus 枚举定义了HTTP状态码 以及相关联消息。
profile、pstats
性能分析工具。 profile 模块提供了 profile 和 cProfile 两种不同实现的性能分析工具,可用来描述程序各个部分的执行时间和频率,统计后的信息可以通过 pstats 模块保存并使用。
ssl
TLS/SSL(传输安全协议)。此模块提供对安全协议的支持,通过应用上下文,可将 TLS(传输层安全性协议)或其前身 SSL(安全套接层)支持安全协议,能为互联网通信提供安全和数据完整性保障。一般 HTTPS 协议都支持 TLS/SSL 加密。
unitest
单元测试框架。 unitest 库常用于单元测试,受到 JUnit 和其他主流测试库的启发, unitest 库的功能和函数与它们有着相似的风格。
uuid
UUID库。 uuid 库主要用途是生成随机字符串,库中有多个版本的 UUID 对象方法,比如版本 1、3、4 和 5 的 uuid1() 、 uuid3() 、 uuid4() 和 uuid5() 。需要注意的是,如果要生成随机字符串,可以使用 uuid1() 和 uuid4() ,但是 uuid1() 会存在隐私风险,因为生成的原理里边包含用户访问计算机的网络地址,而 uuid4() 是通过随机字符生成。
希望可以帮助到你。
G. 我想用C++反序列化一个Python的Pickle序列化的数据,应该怎么做
一和三选吧。Cython 是用来写 Python 的 C 绑定用的。
更好的做法是用 Python 和 C++ 都支持的序列化方案,比如 protobuf 之类的。