当前位置：首页 > ops >正文

Python小酷库系列：Python中的JSON工具库(3)

ops 2025/6/17 16:03:11

Python中的JSON工具库

- JSON数据的比较
- - 1、jsondiff
  - 2、deepdiff
- JSON数据的查询与操作
- - 1、pyjq
  - 2、jsonpath-ng
- JSON数据文件的操作
- - 1、ijson
  - 2、jsonlines
  - 3、jsonpickle

在上一节“Python小酷库系列：Python中的JSON工具库(2)”中，我们主要介绍了JSON数据的校验工具，本节我们进一步来讨论在Python中比较、查询、操作JSON数据。

JSON数据的比较

在自动化测试中，我们常常需要对API 响应或程序变量进行断言，这时常常需要对前后的JSON数据进行比较，在Python中自然也不会缺少这样的比较工具。

1、jsondiff

jsondiff 是一个用于比较两个 JSON（或 Python 字典）对象差异的轻量级库。它能生成最小的变更（patch）表示，并支持将差异反向应用和还原原始数据。
安装

pip install jsondiff

基本用法

import jsondiffa = {"name": "Alice", "age": 30}
b = {"name": "Alice", "age": 31}diff = jsondiff.diff(a, b)
print(diff)  # 输出：{'age': 31}

合并与还原（补丁 patch）

patch = jsondiff.diff(a, b)
new_obj = jsondiff.patch(a, patch)  # 应用 patch 得到 b
original = jsondiff.unpatch(new_obj, patch)  # 还原为 aprint(new_obj)   # {'name': 'Alice', 'age': 31}
print(original)  # {'name': 'Alice', 'age': 30}

嵌套结构 diff

x = {"user": {"name": "Alice", "tags": ["a", "b"]}}
y = {"user": {"name": "Alice", "tags": ["a", "c"]}}print(jsondiff.diff(x, y))
# {'user': {'tags': {1: 'c'}}}  # 索引1处由'b'改为'c'

参数选项（比如忽略顺序）

a = {'numbers': [1, 2, 3]}
b = {'numbers': [3, 2, 1]}# 默认考虑顺序
print(jsondiff.diff(a, b))  
# {'numbers': jsondiff.symbols.insert: [3], 0: 3}# 忽略顺序
print(jsondiff.diff(a, b, dump=True, syntax='symmetric', sequence_matcher=jsondiff.SequenceMatcher))

2、deepdiff

比起jsondiff，deepdiff 的功能更加强大，尤其用于深度比较两个 Python 对象（特别是嵌套的 dict、list、set、tuple 等），并提供结构化的差异信息。
安装

pip install deepdiff

基本用法

from deepdiff import DeepDiffa = {"name": "Alice", "age": 30}
b = {"name": "Alice", "age": 31}diff = DeepDiff(a, b)
print(diff) # {'values_changed': {"root['age']": {'old_value': 30, 'new_value': 31}}}

差异信息说明：

键名	含义
values_changed	值发生了变化
type_changes	类型发生变化
dictionary_item_added	新增键
dictionary_item_removed	删除键
iterable_item_added	列表/集合等新增项
iterable_item_removed	列表/集合等移除项
attribute_changed	对象属性变更（如类实例）
set_item_removed/set_item_added	集合元素变更

生成和应用补丁

from deepdiff import DeepDiff, patch, unpatcha = {"x": 1}
b = {"x": 2}ddiff = DeepDiff(a, b, view='tree')
p = ddiff.patch# 应用 patch
new_data = patch(a, p)
print(new_data)  # {'x': 2}# 还原
orig = unpatch(new_data, p)
print(orig)  # {'x': 1}

差异路径与提取值

ddiff = DeepDiff(a, b, view='tree')
for diff_item in ddiff['values_changed']:print(diff_item.path(), diff_item.t1, "→", diff_item.t2)

嵌套结构 diff

a = {"user": {"name": "Alice", "roles": ["admin", "dev"]}}
b = {"user": {"name": "Alice", "roles": ["admin", "ops"]}}diff = DeepDiff(a, b)
print(diff) # {'values_changed': {"root['user']['roles'][1]": {'old_value': 'dev', 'new_value': 'ops'}}}

参数选项（比如忽略顺序，设置精度）

a = {'numbers': [1, 2, 3]}
b = {'numbers': [3, 2, 1]}diff = DeepDiff(a, b, ignore_order=True)
print(diff)  # 无差异# 浮点精度控制
diff = DeepDiff(0.3000000001, 0.3, significant_digits=7)
print(diff)  # {} 无差异

JSON数据的查询与操作

1、pyjq

pyjq 封装了 jq命令行工具，可以通过jq 表达式对 JSON 数据进行强大的模式匹配与提取、转换等操作。
安装

pip install pyjq

基本使用

import pyjqdata = {"users": [{"name": "Alice", "age": 30},{"name": "Bob", "age": 25}]
}result = pyjq.all('.users[] | select(.age > 26) | .name', data)
print(result)  # ['Alice']

常用的jq 表达式：

表达式	含义
.	原始对象本身
.field	提取字段
.[]	遍历数组
select(.field > 10)	条件筛选
map(.field)	映射数组中每一项的某字段
.{a: .field1, b: .field2}	构造新字典
`.[]	{name, age}`

嵌套结构

data = {"items": [{"id": 1, "tags": ["a", "b"]},{"id": 2, "tags": ["b", "c"]}]
}# 提取所有 tags
result = pyjq.all('.items[].tags[]', data)
print(result)  # ['a', 'b', 'b', 'c']

提取字典转为新结构

data = {"name": "Alice","profile": {"email": "a@example.com","phone": "123456"}
}result = pyjq.first('{username: .name, contact: .profile.email}', data)
print(result)  # {'username': 'Alice', 'contact': 'a@example.com'}

2、jsonpath-ng

jsonpath 是用于在 Python 中从 JSON 数据结构中提取数据的查询、操作工具，类似于 XPath 之于 XML。 jsonpath-ng（前身jsonpath）是 JSONPath 在 Python 中的主流实现库。
安装

pip install jsonpath-ng

基本使用

from jsonpath_ng import jsonpath, parsedata = {"store": {"book": [{"title": "Book A", "price": 8.95},{"title": "Book B", "price": 12.99}],"bicycle": {"color": "red","price": 19.95}}
}# 编译 JSONPath 表达式
jsonpath_expr = parse('$.store.book[*].title')# 执行匹配并提取结果
matches = jsonpath_expr.find(data)
titles = [match.value for match in matches]
print(titles)  # ['Book A', 'Book B']

常见的JSONPath 表达式：

表达式	说明
$	根节点
$.store.book	访问键路径
$.store.book[*].title	遍历数组并提取字段
$…price	递归提取所有层级的 price
$.store.book[0]	第一个数组元素
$.store.book[-1:]	最后一个元素
$.store.book[?(@.price > 10)]	条件筛选

条件查询

expr = parse('$.store.book[?(@.price > 10)].title')
matches = expr.find(data)
titles = [m.value for m in matches]
print(titles)  # ['Book B']

修改数据
可以通过 match.path.update(data, new_value) 来修改原始数据：

expr = parse('$.store.bicycle.color')
matches = expr.find(data)for match in matches:match.path.update(data, "blue")print(data["store"]["bicycle"]["color"])  # blue

提取匹配路径和值

for match in expr.find(data):print(match.path, match.value)
# Fields like Fields('store')['bicycle']['color']

JSON数据文件的操作

1、ijson

ijson 是一个用于 增量解析 JSON 文件 的 Python 库，特别适用于 大文件/流式处理。它基于迭代器，可边读边解析，不会一次性加载整个 JSON，从而节省内存。ijson 通过纯 Python 实现，也有可选的 C 扩展以提升性能。
安装

pip install ijson

基本用法
JSON数据源

{"records": {"item": [{"id": 1, "name": "Alice"},{"id": 2, "name": "Bob"}]}
}

import ijsonwith open('large_file.json', 'r') as f:for item in ijson.items(f, 'records.item'):print(item)
# {'id': 1, 'name': 'Alice'}
# {'id': 2, 'name': 'Bob'}

读取嵌套数组结构

with open('large_file.json', 'r') as f:for item in ijson.items(f, 'data.users.item'):print(item)

按需提取键值

with open('data.json', 'r') as f:for key, value in ijson.kvitems(f, 'meta'):print(f"{key} => {value}")

从网络流/HTTP/Bytes 中读取

import requests
import ijsonresponse = requests.get('https://example.com/data.json', stream=True)
for item in ijson.items(response.raw, 'users.item'):print(item)

2、jsonlines

jsonlines 是一种特殊格式的 JSON 文件，每行是一个合法的 JSON 对象，广泛用于日志、数据流、大规模数据处理（如机器学习训练集） 中。
安装

pip install jsonlines

基本用法
JSON数据源

{"id": 1, "name": "Alice"}
{"id": 2, "name": "Bob"}
{"id": 3, "name": "Charlie"}

读取 JSON Lines 文件

import jsonlineswith jsonlines.open('data.jsonl') as reader:for obj in reader:print(obj['name'])
# Alice
# Bob
# Charlie

写入 JSON Lines 文件

import jsonlinesdata = [{"id": 1}, {"id": 2}, {"id": 3}]
with jsonlines.open('output.jsonl', mode='w') as writer:writer.write_all(data)

流式写入（大数据）

with jsonlines.open('big_output.jsonl', mode='w') as writer:for i in range(1000000):writer.write({'index': i, 'square': i * i})

3、jsonpickle

jsonpickle 是一个功能强大的 Python 库，用于将 复杂的 Python 对象（如自定义类、函数、日期、NumPy、Pandas 等）序列化为 JSON，并能将其反序列化回来，它支持更多内置类型与第三方类型。
安装

pip install jsonpickle

基本使用
序列化（encode）

import jsonpickleclass Person:def __init__(self, name):self.name = nameobj = Person("Alice")# 序列化为 JSON 字符串
json_str = jsonpickle.encode(obj)
print(json_str)

反序列化（decode）

obj_restored = jsonpickle.decode(json_str)
print(obj_restored.name)  # Alice

复杂类型

import jsonpickle
import datetime
import decimaldata = {"time": datetime.datetime.now(),"score": decimal.Decimal('9.99'),"tags": {"a", "b", "c"},
}json_str = jsonpickle.encode(data)
print(json_str)restored = jsonpickle.decode(json_str)
print(restored)

保存和加载 JSON 文件

# 写入文件
with open('person.json', 'w') as f:f.write(jsonpickle.encode(obj))# 从文件读取
with open('person.json', 'r') as f:obj2 = jsonpickle.decode(f.read())

自定义 JSON处理库

jsonpickle可以指定JSON的处理库，如选择我们前面讲到的高性能库orjson。

import jsonpickle.ext.orjson as orjson
jsonpickle.set_encoder_options('orjson', option=orjson.OPT_INDENT_2)

查看全文

http://www.xdnf.cn/news/14298.html

行为设计模式之State（状态）设计模式

java中常见的排序算法设计介绍

IDEA21中文乱码解决办法

ubuntu 22.04设置时区和24小时制显示——筑梦之路

【详细】CUDA开发学习教程清单

【深度解析】Java高级并发模式与实践：从ThreadLocal到无锁编程，全面避坑指南！

Arcgis中，toolbox工具箱中工具莫名报错的解决方法

【速写】policy与reward分词器冲突问题（附XAI阅读推荐）

LeetCode--31.下一个排列

行为设计模式之Strategy（策略）

网络编程（HTTP协议）

ShenNiusModularity项目源码学习（34：总结）

C/C++数据结构之漫谈

React-router、React-router-dom、React-router-native之间的区别

基于深度强化学习的智能机器人路径规划系统：技术与实践

Flutter 本地存储全面指南：从基础到高级实践

CMake实战：qmake转cmake神器 - pro2cmake.py

【图像处理入门】7. 特征描述子：从LBP到HOG的特征提取之道

智慧金融——解读DeepSeek在银行业务场景的应用【附全文阅读】

Kotlin实现文件上传进度监听：RequestBody封装详解

Vue 性能优化

Flink与Kubernetes集成

数据库相关操作

[windows工具]OCR提取文字软件1.1使用教程及注意事项

Java—— ArrayList 和 LinkedList 详解

【橘子的AI | 每日一课】Day4！机器学习 (ML) 基础

/etc/profile.d/conda.sh: No such file or directory : numeric argument required

Nginx-2 详解处理 Http 请求

aws(学习笔记第四十四课) opensearch

AWS EC2 终极指南：如何选择预装 GPU 驱动和特定功能的最佳 AMI