Python pickle模块的用法
串行化主要用于网络传输或者持久化。我们知道,网络上的数据都是字节流,如果希望将某个对象传送给远端的机器,首先就必须将其转换成字节流,然后才可以在网络上传输。文件也是字节流,如果希望将某个对象保存到文件中,首先也是需要将其转换成字节流,然后才可以保存。
与串行化对应的是反串行化,即从字节流中恢复出原来的对象。这样传输才有意义。
将串行化和反串行化与网络传输合并起来,便可以得到如图 1 所示的描述过程。
图 1 串行化和反串行化
如果是通过文件永久保存或备份数据,则可以使用图6-2来表示该过程。
图 2 对象保存的过程
可以看出,串行化在这两个领域是非常有用的。串行化的基本要求即是恢复的对象要等价于原来的对象,不能有信息丢失现象。
串行化相关的模块很多,如 pickle、cpickle、json 和 marshal 等,它们都在转换效率和压缩效率上下了不少功夫,但其基本功能大同小异。所以本教程并不会将这些模块都进行详细介绍,主要介绍 pickle 库的用法。
pickle 不用安装,其是 Python 自带的包,使用时仅需要引入该包即可。方法如下:
import pickle
pickle 包主要提供了两个功能,一个是将对象转换成字节流,即串行化;另一个是将字节流转换成对象,即反串行化。每个功能又分出了两个分支,一个是仅转换成字节流,另一个是转换成字节流并保存到文件中去。所以 pickle 包主要有 4 个接口,如表 3 所示。
操 作 | 串行化 | 反串行化 |
---|---|---|
转换+文件操作 | dump() | load() |
转换 | dumps() | loads() |
dump 的文件对象要求是可写的。
>>> a = range(10) >>> a [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> fd = open("tmp,bin", "wb") >>> fd <open file 'tmp,bin', mode 'wb' at 0x000000000277E8A0> >>> pickle.dump(a, fd) >>> fd.close() >>> fd2 = open("tmp,bin", "rb") >>> a2 = pickle.load(fd2) >>> a2 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
load 函数从文件对象中读出一个对象,返回值就是该对象。上面的例子中演示了如何使用该接口函数。
dumps 函数返回一个字节流。
>>> a = range(10) >>> a [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> s = pickle.dumps(a) >>> s '(lp0\nI0\naI1\naI2\naI3\naI4\naI5\naI6\naI7\naI8\naI9\na.' >>> type(s) <type 'str'> >>> b = pickle.loads(s) >>> b [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
输入应该是 dumps() 的返回值。注意,不要随意构造字节流,因为并不是所有的字节流都能被解析出来。该接口函数的用法在上面的例子中已经演示过了。
另外,可不可以将多个对象保存到一个文件中呢?答案是可以。如果需要写入多个对象,则可以多次调用 dump() 函数。同样,在恢复时也要多次调用 load() 函数。它们之间的对应关系是,第一次 load() 得到的对象是第一次 dump() 对应的对象,第二次 load() 得到的对象是第二次 dump() 对应的对象,简单来说就是先进先出。
下面的代码演示了这个用法。
>>> a1 = range(3) >>> a1 [0, 1, 2] >>> a2 = range(5) >>> a2 [0, 1, 2, 3, 4] >>> fd = open("tmp,bin", "wb") >>> pickle.dump(a1, fd) # 先写入短的列表 >>> pickle.dump(a2, fd) # 再写入长的列表 >>> fd.close() >>> fd2 = open("tmp,bin", "rb") >>> b1 = pickle.load(fd2) >>> b1 # 先读出来的是短的列表 [0, 1, 2] >>> b2 = pickle.load(fd2) >>> b2 # 再读出来的是长的列表 [0, 1, 2, 3, 4] >>> fd2.close()
本文链接:http://so.lmcjl.com/news/396/