当前位置: 首页 > news >正文

Python的collections模块:数据结构的百宝箱

Python的collections模块:数据结构的百宝箱

图片

对话实录

小白:处理数据时,Python自带的数据结构不够用,有更强大的工具吗?

专家:那可不能错过collections模块,它提供了许多高效实用的数据结构,能大幅提升数据处理的效率与灵活性。

collections功能介绍

1. Counter:统计元素出现次数

Counter用于统计可迭代对象中元素出现的频次。比如统计文本中单词出现次数:

from collections import Counter
text = "apple banana apple cherry banana apple"
word_list = text.split()
#统计次数
word_counter = Counter(word_list)
print(word_counter)
#输出为:
Counter({'apple': 3, 'banana': 2, 'cherry': 1})text2 = "apple banana apple cherry banana apple"
word_list2 = text2.split()
#使用update函数添加另一个可迭代对象,继续统计次数
word_counter.update(word_list2)
print(word_counter)
#输出为
Counter({'apple': 6, 'banana': 4, 'cherry': 2})

2. defaultdict:带有默认值的字典

普通字典访问不存在的键会报错,defaultdict则会自动创建默认值。例如按类别统计物品数量:

from collections import defaultdict
category_items = defaultdict(int)
items = [('fruit', 'apple'), ('fruit', 'banana'), ('vegetable', 'carrot'), ('fruit', 'cherry')]
for category, item in items:category_items[category] += 1
print(category_items)
#输出为:
defaultdict(<class 'int'>, {'fruit': 3, 'vegetable': 1})

defaultdict(int)表示默认值为 0,最终输出defaultdict(<class 'int'>, {'fruit': 3,'vegetable': 1}),适用于需预先初始化值的字典场景。

3. OrderedDict:有序字典

普通字典在 Python 3.6 前无序,3.7 后虽保持插入顺序,但OrderedDict能更明确表示有序性,还有操作顺序的方法。如记录用户操作步骤:

from collections import OrderedDict
user_actions = OrderedDict()
user_actions['step1'] = 'login'
user_actions['step2'] = 'browse products'
user_actions['step3'] = 'add to cart'
user_actions['step4'] = 'checkout'
for step, action in user_actions.items():print(f"{step}: {action}")

输出严格按插入顺序展示,适用于历史记录、任务流程管理等需保持元素顺序的场景。

另外大家都知道集合有去重的功能,但是集合是无序的,去重后会导致原来的对象变得无序。此时可以通过OrderedDict保持原来的顺序。举例如下:

listA = ['orange', 'apple', 'pear', 'banana','orange']
listB = set(listA)
print(listB)
#打印结果 集合去重后元组顺序改变了
{'banana', 'pear', 'orange', 'apple'}

我们通过有序字典
collections.OrderedDict.fromkeys()功能,对列表去重并保持有序

from collections import OrderedDict
listC = list(OrderedDict.fromkeys(listA))
print(listC)
['orange', 'apple', 'pear', 'banana']

4.deque:双端队列

deque允许在队列两端高效添加和删除操作。模拟任务队列,可在队首添加紧急任务,队尾添加普通任务:

from collections import deque
task_queue = deque()task_queue.append('task1')
task_queue.append('task2')
task_queue.appendleft('urgent_task')while task_queue:task = task_queue.popleft()print(f"Processing task: {task}")

appendleft在队首添加,popleft从队首取出,在广度优先搜索、缓存管理等需双向操作的队列场景中性能更优。

5.namedtuple:具名元组

namedtuple为元组元素命名,让代码更易读。如表示学生信息:

from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'grade'])student1 = Student('Alice', 20, 'A')
print(student1.name)
print(student1.age)
print(student1.grade)

通过属性名访问元素,数据存储和传递时很方便,适用于数据结构固定、元素含义明确的场景。

6.ChainMap:合并多个映射

ChainMap可组合多个字典或映射,形成单一视图,在处理多个配置文件等场景中有用。如合并默认和用户自定义配置字典:

from collections import ChainMap
default_config = {'color': 'blue', 'font':'sans-serif'}
user_config = {'color':'red'}combined_config = ChainMap(user_config, default_config)
print(combined_config['color'])
print(combined_config['font'])
#输出为:
red
sans-serif

访问键时先在user_config查找,不存在再在default_config查找,输出red和sans-serif 。

7.UserDict:自定义字典类

UserDict是创建自定义字典类的基类。创建不允许删除键的字典类:

from collections import UserDict
class NoDeleteDict(UserDict):def __delitem__(self, key):raise NotImplementedError("删除操作不被允许")ndd = NoDeleteDict({'key1': 'value1', 'key2': 'value2'})# 尝试删除键会引发错误
del ndd['key1']

继承UserDict并覆盖方法,可定制符合需求的字典类。

8.UserList:自定义列表类

类似UserDict,UserList用于创建自定义列表类。创建只能存储整数的列表类:

from collections import UserList
class IntList(UserList):def append(self, item):if not isinstance(item, int):raise ValueError("只能添加整数")super().append(item)
il = IntList()
il.append(1)
# 尝试添加非整数会引发错误
# il.append('not an integer')  

可对列表操作进行约束和扩展,满足特定业务逻辑。

小白:哇,collections模块这么强大!

专家:熟练掌握它,你在Python数据处理上会更得心应手,快去实践吧!

常用函数及数据结构速查表

函数 / 数据结构

用法

说明

Counter

Counter(iterable)

统计可迭代对象中元素出现次数

defaultdict

defaultdict(default_factory)

带有默认值的字典,default_factory为可调用对象

OrderedDict

OrderedDict()

有序字典,保持元素插入顺序

deque

deque([iterable], maxlen=None)

双端队列,可设置最大长度maxlen

namedtuple

namedtuple('typename', 'field_names')

具名元组,typename为类型名,field_names为字段名

ChainMap

ChainMap(*maps)

合并多个映射

UserDict

class MyDict(UserDict)

用于创建自定义字典类的基类

UserList

class MyList(UserList)

用于创建自定义列表类的基类

图片

http://www.xdnf.cn/news/545311.html

相关文章:

  • 基于 Netty + SpringBoot + Vue 的高并发实时聊天系统设计与实现
  • Windows Ubuntu 目录映射关系
  • Vue2到Vue3迁移问题解析
  • fdisk和parted的区别
  • 数据结构测试模拟题(1)
  • mysql的基础命令
  • pycharm无需科学上网工具下载插件的解决方案
  • Brave 连接 Websocket 失败
  • 【LeetCode 热题 100】有效的括号 / 最小栈 / 字符串解码 / 柱状图中最大的矩形
  • 【Linux基础操作】
  • Linux jq 命令使用详解
  • 《安徽日报》聚焦珈和科技AI创新:智慧虫情测报护航夏粮提质丰产
  • Prompt Tuning:高效微调大模型的新利器
  • Vue3 中使用 provide/inject 实现跨层级组件传值失败的原因及解决方案
  • 分析 redis 的 exists 命令有一个参数和多个参数的区别
  • 区间内最远互质点对
  • 编程最接近现实的模拟---随机数
  • QT6 源(113)篇二:阅读与注释工具栏 QToolBar,给出源码
  • 彭博社聚焦Coinbase数据泄露,CertiK联创顾荣辉警示私钥风险与物理攻击
  • 安全工具配置
  • 21. 自动化测试框架开发之Excel配置文件的测试用例改造
  • [特殊字符] React Fiber架构与Vue设计哲学撕逼实录
  • 【Linux笔记】——简单实习一个日志项目
  • 以太联 - Intellinet 闪耀台北 SecuTech 国际安全科技应用博览会
  • C及C++的音频库与视频库介绍
  • MATLAB实现GAN用于图像分类
  • Spring Boot 集成 Elasticsearch【实战】
  • JAVA EE(进阶)_HTML
  • PHP、JAVA、Shiro反序列化
  • Index-AniSora技术升级开源:动漫视频生成强化学习