HashMap底层原理 什么是哈希表?哈希冲突?如何处理哈希冲突?
HashMap底层原理
什么是哈希表?
哈希表(Hash Table)是一种基于哈希函数实现的数据结构,它通过将键(key)映射到表中一个位置来访问记录,以支持快速的数据查找、插入和删除操作。
哈希表的核心思想:
- 使用哈希函数将任意大小的数据(键)转换为固定大小的值(哈希值)
- 使用这个哈希值作为数组索引来存储和查找数据
理想情况下,哈希表的查找、插入和删除操作的时间复杂度都是O(1)。
哈希冲突
哈希冲突(Hash Collision)是指不同的键经过哈希函数计算后得到了相同的哈希值,即多个键被映射到了哈希表的同一个位置。
产生原因:
- 哈希函数的输出空间有限,而输入空间可能无限
- 即使输入空间有限,也可能存在不同的输入产生相同的输出
处理哈希冲突的方法
1. 链地址法(Separate Chaining)
Java的HashMap采用的就是这种方法。
实现方式:
- 哈希表的每个位置(桶)不是一个元素,而是一个链表(或红黑树)
- 当发生冲突时,将新元素添加到对应位置的链表中
- 查找时,先计算哈希值找到对应桶,然后在链表中顺序查找
JDK 1.8优化:
- 当链表长度超过8时,转换为红黑树
- 当红黑树节点数小于6时,转换回链表
2. 开放地址法(Open Addressing)
当发生冲突时,按照某种探测方法在哈希表中寻找下一个空槽位。
探测方法:
- 线性探测:顺序查找下一个空位
- 二次探测:使用二次方程计算下一个位置
- 双重哈希:使用第二个哈希函数计算步长
3. 再哈希法(Rehashing)
当发生冲突时,使用另一个哈希函数计算新的位置。
4. 建立公共溢出区
将哈希表分为基本表和溢出表,冲突的元素都放入溢出表中。
Java HashMap的实现细节
- 初始容量:默认16
- 负载因子:默认0.75,当元素数量超过容量×负载因子时进行扩容
- 扩容机制:每次扩容为原来的2倍
- 哈希计算:使用键的hashCode()方法,并通过扰动函数减少冲突
static final int hash(Object key) {int h;return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }
- 树化阈值:链表长度>8且表容量≥64时转为红黑树
HashMap通过这种设计在大多数情况下提供了接近O(1)时间复杂度的操作性能。