当前位置：首页 > java >正文

Python爬虫（8）Python数据存储实战：JSON文件读写与复杂结构化数据处理指南

java 2025/7/2 13:16:50

- - 一、背景与核心价值‌
  - 二、JSON基础与核心应用场景‌
  - - 2.1 JSON数据结构规则‌
    - 2.2 典型应用场景
  - 三、Python json模块核心操作‌
  - - ‌3.1 基础读写：dump()与load()‌
    - 3.2 字符串与对象的转换：dumps()与loads()‌
  - 四、处理复杂数据类型‌
  - - 4.1 日期时间对象‌
    - 4.2 自定义类的序列化‌
  - 五、实战案例：配置文件管理与API数据存储‌
  - - 5.1 动态生成配置文件
    - 5.2 存储API返回的嵌套数据
  - 六、高级技巧与性能优化‌
  - - 6.1 控制序列化行为‌
    - 6.2 使用第三方库加速‌
    - 6.3 大文件分块读写
  - 七、注意事项与总结‌
  - - 7.1 核心总结‌
    - 7.2 ‌JSON的局限性‌
    - Python爬虫相关文章（推荐）

一、背景与核心价值‌

在现代数据开发中，‌JSON（JavaScript Object Notation）‌ 已成为跨语言、跨平台数据交换的‌事实标准‌。相比于CSV或纯文本，JSON的优势在于：

结构化存储‌：天然支持嵌套字典、列表等复杂数据结构。
‌强可读性‌：键值对形式清晰描述数据含义，便于人工校验。
广泛兼容‌：Web API、NoSQL数据库（如MongoDB）、前后端通信均默认使用JSON。

‌本文目标‌：基于Python标准库json模块，深入解析JSON文件的‌序列化与反序列化‌技巧，解决日期、自定义对象等复杂数据类型的存储问题，并提供生产级代码模板与避坑指南。

二、JSON基础与核心应用场景‌

2.1 JSON数据结构规则‌

基本类型‌：字符串（“”）、数字、布尔值（true/false）、null、对象（{}）、数组（[]）。
语法限制‌：
- 键名必须用双引号包裹。
- 禁止末尾逗号（如{“a”:1,}无效）。
- 不支持注释（部分解析库可扩展支持）。

2.2 典型应用场景

场景	说明
配置文件存储	程序参数、路径配置等（如config.json）
API数据交互	前后端通过JSON格式传递请求与响应
结构化日志记录	记录带元数据的操作日志，便于后续分析

三、Python json模块核心操作‌

‌3.1 基础读写：dump()与load()‌

写入JSON文件‌：

import jsondata = {"project": "数据分析平台","version": 2.1,"authors": ["张三", "李四"],"tags": {"python": 5, "database": 3}
}with open("data.json", "w", encoding="utf-8") as f:json.dump(data, f, ensure_ascii=False, indent=2)  # 禁用ASCII转义，缩进2空格

生成文件data.json：

{"project": "数据分析平台","version": 2.1,"authors": ["张三", "李四"],"tags": {"python": 5,"database": 3}
}

‌读取JSON文件‌：

with open("data.json", "r", encoding="utf-8") as f:loaded_data = json.load(f)
print(loaded_data["tags"]["python"])  # 输出：5

3.2 字符串与对象的转换：dumps()与loads()‌

‌对象转JSON字符串‌：

data_str = json.dumps(data, ensure_ascii=False)
print(type(data_str))  # <class 'str'>

‌字符串转Python对象‌：

json_str = '{"name": "王五", "age": 30}'
obj = json.loads(json_str)
print(obj["age"])  # 输出：30

四、处理复杂数据类型‌

4.1 日期时间对象‌

JSON默认不支持Python的datetime对象，需自定义转换逻辑：

from datetime import datetimedef datetime_encoder(obj):if isinstance(obj, datetime):return obj.isoformat()  # 转为ISO格式字符串raise TypeError("类型无法序列化")data = {"event": "发布会", "time": datetime.now()}# 序列化时指定自定义编码函数
json_str = json.dumps(data, default=datetime_encoder, ensure_ascii=False)
print(json_str)  # {"event": "发布会", "time": "2024-07-20T15:30:45.123456"}

4.2 自定义类的序列化‌

若需存储自定义类实例，需实现__dict__方法或指定序列化函数：

class User:def __init__(self, name, level):self.name = nameself.level = leveluser = User("赵六", 3)# 方法1：手动转换字典
user_dict = {"name": user.name, "level": user.level}
json.dumps(user_dict)# 方法2：使用__dict__（需类属性均为可序列化类型）
json.dumps(user.__dict__)

五、实战案例：配置文件管理与API数据存储‌

5.1 动态生成配置文件

import jsonconfig = {"database": {"host": "localhost","port": 3306,"user": "admin","password": "secret"},"logging": {"level": "INFO","path": "/var/logs/app.log"}
}with open("config.json", "w", encoding="utf-8") as f:json.dump(config, f, indent=4)print("配置文件已生成！")

5.2 存储API返回的嵌套数据

import requests
import jsonurl = "https://api.example.com/books"
response = requests.get(url)
books_data = response.json()  # 直接获取JSON对象# 筛选评分大于4的书籍
filtered_books = [book for book in books_data if book["rating"] > 4]with open("high_rating_books.json", "w", encoding="utf-8") as f:json.dump(filtered_books, f, ensure_ascii=False, indent=2)

六、高级技巧与性能优化‌

6.1 控制序列化行为‌

‌跳过特定字段‌：

def filter_encoder(obj):if "password" in obj:del obj["password"]return objuser_data = {"name": "张三", "password": "123456"}
json.dumps(user_data, default=filter_encoder)  # {"name": "张三"}

紧凑输出‌：取消缩进和空格

json.dumps(data, separators=(",", ":"))  # 输出最简格式

6.2 使用第三方库加速‌

‌ujson‌：C实现的超高速JSON库（API兼容）。

import ujson as json  # 替换标准库
json.dumps(data)      # 速度提升3-10倍

6.3 大文件分块读写

避免一次性加载大文件导致内存溢出：

# 逐行读取JSON数组文件（每行为独立JSON对象）
with open("large_data.json", "r", encoding="utf-8") as f:for line in f:item = json.loads(line)process(item)

七、注意事项与总结‌

7.1 核心总结‌

‌基础能力‌：json模块提供了简单高效的序列化方案。
‌复杂场景‌：通过自定义编码函数处理日期、类实例等特殊类型。
‌性能优化‌：选择ujson或分块读写应对大数据量。

7.2 ‌JSON的局限性‌

‌无注释支持‌：不适合需要备注的配置文件（可改用YAML）。
‌存储效率低‌：二进制格式（如MessagePack）更节省空间。

Python爬虫相关文章（推荐）


Python爬虫介绍	Python爬虫（1）Python爬虫：从原理到实战，一文掌握数据采集核心技术
HTTP协议解析	Python爬虫（2）Python爬虫入门：从HTTP协议解析到豆瓣电影数据抓取实战
HTML核心技巧	Python爬虫（3）HTML核心技巧：从零掌握class与id选择器，精准定位网页元素
CSS核心机制	Python爬虫（4）CSS核心机制：全面解析选择器分类、用法与实战应用
静态页面抓取实战	Python爬虫（5）静态页面抓取实战：requests库请求头配置与反反爬策略详解
静态页面解析实战	Python爬虫（6）静态页面解析实战：BeautifulSoup与lxml（XPath）高效提取数据指南
Python数据存储实战 CSV文件	Python爬虫（7）Python数据存储实战：CSV文件读写与复杂数据处理指南