

新闻资讯
行业动态pickle是Python对象序列化为二进制字节流的机制,依赖类定义存在,不支持lambda、局部类、文件句柄等;反序列化不可信数据有安全风险,推荐json/msgpack跨语言、dill/joblib替代。
Python 的 pickle 模块是实现类与对象序列化的最直接方式,但它不是万能的“黑箱”,用对了省时省力,用错了会报错、丢数据甚至引发安全风险。
pickle 不是把对象转成 JSON 那样的文本格式,而是将 Python 对象的状态(包括类型、属性值、引用关系)原样封存为二进制字节流。它专为 Python 生态设计,反序列化时必须能重新导入原始类定义。
例如有一个简单类:
class Person:创建实例 p = Person("Alice", 30) 后,用 pickle.dumps(p) 得到一串字节;再用 pickle.loads(字节) 就能还原出完全相同的对象(前提是运行环境中已定义 Person 类)。
立即学习“Python免费学习笔记(深入)”;
pickle 无法处理以下几类内容,遇到就会抛 AttributeError 或 PicklingError:
numpy.save 更稳妥)如果类中包含不可 pickle 的属性(如临时缓存或 socket),可重写 __getstate__ 方法,返回一个剔除这些字段的字典。
pickle 反序列化过程会执行任意代码(如调用 __reduce__ 返回的构造逻辑),恶意构造的字节流可能删除文件、启动进程。生产环境绝对禁止用 pickle.loads() 解析来自用户、网络或外部文件的输入。
替代方案推荐:
json(仅支持基础类型)或 msgpack
pickle 仍是最简方案dill(支持更多对象类型)或 joblib(针对 numpy/scikit-learn 优化)最常用模式是搭配 open(..., "wb") 和 open(..., "rb"):
注意:多个对象可连续 pickle.dump() 到同一文件,读取时也需按顺序多次 pickle.load();若想一次存多个,建议先放进列表再 dump。
不复杂但容易忽略:版本兼容性。不同 Python 版本的 pickle 协议默认不同(如 Python 3.8 默认 protocol=4),低版本可能无法加载高版本生成的文件。显式指定协议可提升兼容性:pickle.dump(obj, f, protocol=4)。