【Java面试】十五、HashMap相关-个人在线分享

文章目录

1、二叉树
- 1.1 二叉搜索树
- 1.2 红黑树
2、散列表
- 2.1 哈希冲突
- 2.2 哈希冲突 – 链表法
3、HashMap的实现原理
4、HashMap源码
- 4.1 属性部分
- 4.2 构造函数部分
5、HashMap的put方法的流程
6、HashMap的扩容机制
7、HashMap的寻址算法
8、为何HashMap底层的数组长度一定是2的次幂

1、二叉树

每个节点，最多有两个子节点

【Java面试】十五、HashMap相关插图

用链表实现二叉树：

【Java面试】十五、HashMap相关插图(1)
示意图：

【Java面试】十五、HashMap相关插图(2)
常见的二叉树：

满二叉树：除叶子节点，每个节点都有两个子节点，且所有的叶子节点都在同一层，且是最底层

【Java面试】十五、HashMap相关插图(3)

完全二叉树：叶子节点只会出现在最后2层，且最后一层的叶子节点都靠左对齐

【Java面试】十五、HashMap相关插图(4)

二叉搜索树
红黑树

1.1 二叉搜索树

对任一节点：其左子树的值都小于它，其右子树的值都大于它

【Java面试】十五、HashMap相关插图(5)
二分法查找，因此，查找的时间复杂度为O(log n)。插入和删除的前提是查找，因此，时间复杂度也是O(log n)

【Java面试】十五、HashMap相关插图(6)
以上为二叉搜索树最坏的情况，已经退化成了链表。此时，时间复杂度为O(n)

1.2 红黑树

自平衡的二叉搜索树，性质：

节点非红即黑
根节点是黑色
叶子节点都是黑色的空节点
红色节点的子节点都是黑色
从任一节点到叶子节点的所有路径都包含相同数目的黑色节点（如从38出发，到叶子节点1和2，路径的黑色节点数都为2）

【Java面试】十五、HashMap相关插图(7)

在删除或添加节点时，如果不符合以上5条，就会旋转，以同时满足这5条。这也是红黑树自平衡的原因。最后，红黑树查找、添加、删除的时间复杂度都是O(log n)

2、散列表

又叫哈希表（Hash表），根据key查value的数据结构。如下，根据选手编号查选手信息，将其编号经过散列函数转为数组下标
【Java面试】十五、HashMap相关插图(8)

2.1 哈希冲突

散列函数要求：

key计算得到的哈希值必须 >= 0，因为这个值要充当数组下标
key1 == key2，则这两个key经过散列函数计算得到的哈希值也相等
key1 != key2，则这两个key经过散列函数计算得到的哈希值也要不相等

多个不同的key经过散列函数计算得到的哈希值相等的情况，成为哈希冲突（或散列冲突）
【Java面试】十五、HashMap相关插图(9)

2.2 哈希冲突 – 链表法

数组的每个下标位置，对应一个链表。哈希值相同的元素，放到同一个位置的链表里
【Java面试】十五、HashMap相关插图(10)
此时，插入数据时，时间复杂度为O(1)，因为只需执行散列函数，根据计算结果将值放入这两步，与数据规模无关。查找或删除数据时，时间复杂度：

正常为O(1)，还是执行散列函数，得到的哈希值即索引下标
如果散列表退化成链表，则时间复杂度为O(n)，如下图，任意一个key，散列函数的计算结果都相等时，就会退化为链表

【Java面试】十五、HashMap相关插图(11)
考虑到这个退化问题，将链表替换为红黑树，如此，即使退化，时间复杂度也是O(log n)级别

【Java面试】十五、HashMap相关插图(12)

3、HashMap的实现原理

HashMap底层是哈希表结构，数组 + 链表或者数组 + 红黑树。往map里put元素时，计算key的哈希值作为数组下标。此时，如果哈希值相同：

若：哈希值相同的两个key相等，则直接覆盖旧值
若：哈希值相同的两个key不相等，则说明出现哈希冲突了，那将当前的key-value放入链表或者红黑树，且当链表长度 > 8 && 数组长度大于64时，链表转为红黑树，以减少搜索时间

【Java面试】十五、HashMap相关插图(13)

链表长度 > 8 && 数组长度大于64时，链表转为红黑树，扩容resize() 时，红黑树拆分成的树的节点数小于等于6个时，又退化成链表。最后，这是JDK1.8的东西，JDK1.7只有数组 + 链表。

【Java面试】十五、HashMap相关插图(14)

正常来说，以key的哈希值作为索引定位后，链表长度为1，哈希冲突后，长度就 > 1 了。

注意这个数组不是String数组，而是Node类型的数组。map里get时，根据key计算哈希得到下标，如果Node的key和查找的key不相同，就继续看Node.next这个Node

//HashMap集合底层的精简源码：
public class HashMap{
	//HashMap底层实际是一个一维数组
	Node<K,V>[] table;
	//静态的内部类
	static class Node<K,V>{
		//哈希值，是此处key的hashCode()方法的执行结果
		//hash值通过哈希函数可以转换为数组下标
		final int hash;
		//存到Map中的key
		final K key;
		//存到Map集合中的value
		V value;
		//哈希冲突时，下一个节点的内存地址（即另一对key-value）
		//只所以说哈希表等于数组+链表，链表也就体现在这个next属性上
		Node<K,V> next;
	}
}

4、HashMap源码

4.1 属性部分

DEFAULT_INITIAL_CAPACITY：默认的初始容量
DEFAULT_LOAD_FACTOR：默认的加载因子，0.75，它决定了触发扩容的阈值

扩容阈值 = 数组容量 * 加载因子

【Java面试】十五、HashMap相关插图(15)

table属性是一个Node类型的数组，Node是HashMap的内部类，其有四个属性：key的哈希值、存入的key、存入的value、发生哈希冲突时存下一对key-value的next。table是HashMap里真正存储数据的那个数组。

table里存的是一个个Node，Node对象里有key、value、以及发生哈希冲突时另一个key-value对应的Node对象地址

【Java面试】十五、HashMap相关插图(16)
最后，size属性即集合中存储元素的个数。

4.2 构造函数部分

Map<String, String> myMap = new HashMap<>();

【Java面试】十五、HashMap相关插图(17)

也就是说：HashMap是懒加载，创建HashMap对象时，只是设置了加载因子等于默认加载因子0.75，并没有初始化数组

5、HashMap的put方法的流程

第一次put元素，流程如下：初始化一个长度为16的数组（table属性），根据key计算哈希，得到索引，组装Node对象写入数组，写完后，判断size+1会不会超过阈值（数组长度 * 加载因子），超过则继续扩容，当然第一次add肯定没到扩容阈值（16 * 0.75）

【Java面试】十五、HashMap相关插图(18)

后续再put，根据key计算索引 i，如果 i 的位置已经有Node对象了，则判断现在add的key和 i 位置的首个Node对象的key是否相等，相等则说明在更新value，直接覆盖

【Java面试】十五、HashMap相关插图(19)
不相等，则再判断table[i]是红黑树还是链表：

如果是红黑树，则在树中添加一个节点Node
如果是链表，则遍历链表，若遍历发现没一个Node的key和add的key相等，那就是哈希冲突了，则在链尾插入一个节点Node，且插入后判断链表长度，以决定是否转为红黑树（JDK1.8）

put方法源码：

//hash(key)即计算key的哈希值当索引下标
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//判断数组是否未初始化
if ((tab = table) == null || (n = tab.length) == 0)
//如果未初始化，调用resize方法 进行初始化
n = (tab = resize()).length;
//通过 & 运算求出该数据（key）的数组下标并判断该下标位置是否有数据
if ((p = tab[i = (n - 1) & hash]) == null)
//如果没有，直接将数据放在该下标位置，这时，Node对象的第四个属性next自然为空
tab[i] = newNode(hash, key, value, null);
//该数组下标有数据的情况
else {
Node<K,V> e; K k;
//判断该位置数据的key和新来的数据是否一样
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
//如果一样，证明为修改操作，该节点的数据赋值给e,后边会用到
e = p;
//判断是不是红黑树
else if (p instanceof TreeNode)
//如果是红黑树的话，进行红黑树的操作
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//新数据和当前数组既不相同，也不是红黑树节点，证明是链表
else {
//遍历链表
for (int binCount = 0; ; ++binCount) {
//判断next节点，如果为空的话，证明遍历到链表尾部了
if ((e = p.next) == null) {
//把新值放入链表尾部
p.next = newNode(hash, key, value, null);
//因为新插入了一条数据，所以判断链表长度是不是大于等于8
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//如果是，进行转换红黑树操作
treeifyBin(tab, hash);
break;
}
//判断链表当中有数据相同的值，如果一样，证明为修改操作
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
//把下一个节点赋值为当前节点
p = e;
}
}
//判断e是否为空（e值为修改操作存放原数据的变量）
if (e != null) { // existing mapping for key
//不为空的话证明是修改操作，取出老值
V oldValue = e.value;
//一定会执行  onlyIfAbsent传进来的是false
if (!onlyIfAbsent || oldValue == null)
//将新值赋值当前节点
e.value = value;
afterNodeAccess(e);
//返回老值
return oldValue;
}
}
//计数器，计算当前节点的修改次数
++modCount;
//当前数组中的数据数量如果大于扩容阈值
if (++size > threshold)
//进行扩容操作
resize();
//空方法
afterNodeInsertion(evict);
//添加操作时 返回空值
return null;
}

get时，计算key的hash值，在数组中找到对应的下标，一般没哈希冲突，下标位置就一个Node。有哈希冲突时，就按照红黑树或者链表去查哪个Node的key等于查的这个key。源码：

public V get(Object key) {
Node<K,V> e;
//hash(key)，获取key的hash值
//调用getNode方法，见下面方法
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//找到key对应的桶下标，赋值给first节点
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//判断hash值和key是否相等，如果是，则直接返回，桶中只有一个数据（大部分的情况）
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
//该节点是红黑树，则需要通过红黑树查找数据
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
//链表的情况，则需要遍历链表查找数据
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}

6、HashMap的扩容机制

扩容时，调用resize方法，先判断旧的容量是否大于0，不大于0即第一次初始化，那就新建个长度为16的空数组。反之为正常扩容，此时需要新建个2倍容量的新数组，并遍历旧数组（table属性），一个个取出来放进新数组，遍历时：

如果旧数组元素（Node类型）的next属性为null（说明该位置只有一个Node，没有发生哈希冲突），则直接加到新数组的对应位置
如果旧数组元素的next属性不为null，说明这个位置不止一个Node，而是一个Node链或红黑树
因此继续判断，如果是红黑树，则按红黑树添加到新数组
如果这个位置是Node链表，则遍历链表，这里可能需要拆分这条链表（之前哈希冲突的，在扩容后，冲突可能就没了，因此，这条链表中的部分Node就可能会分配到新的数组位置上挂着）

【Java面试】十五、HashMap相关插图(20)

关于上面拆分链表的举例，往新数组搬时，比如下标3的位置，是一个链表，那扩容时，遍历链表上的每一个Node e，计算（e.hash & oldCap），若为0，则扩容前后，该Node所在的位置不变，之前挂下标为3的链表里，那扩容后还挂下标为3的链表里。若不为0，之前挂下标为3的链表里，扩容后，挂下标为 3 + oldCap = 3 + 16 = 19的下标的链表里。

扩容resize方法的源码：

//扩容、初始化数组
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
//如果当前数组为null的时候，把oldCap老数组容量设置为0
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//老的扩容阈值
int oldThr = threshold;
int newCap, newThr = 0;
//判断数组容量是否大于0，大于0说明数组已经初始化
if (oldCap > 0) {
//判断当前数组长度是否大于最大数组长度
if (oldCap >= MAXIMUM_CAPACITY) {
//如果是，将扩容阈值直接设置为int类型的最大数值并直接返回
threshold = Integer.MAX_VALUE;
return oldTab;
}
//如果在最大长度范围内，则需要扩容  OldCap << 1等价于oldCap*2
//运算过后判断是不是最大值并且oldCap需要大于16
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold  等价于oldThr*2
}
//如果oldCap<0，但是已经初始化了，像把元素删除完之后的情况，那么它的临界值肯定还存在，       			如果是首次初始化，它的临界值则为0
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
//数组未初始化的情况，将阈值和扩容因子都设置为默认值
else {               // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
//初始化容量小于16的时候，扩容阈值是没有赋值的
if (newThr == 0) {
//创建阈值
float ft = (float)newCap * loadFactor;
//判断新容量和新阈值是否大于最大容量
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//计算出来的阈值赋值
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
//根据上边计算得出的容量 创建新的数组       
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//赋值
table = newTab;
//扩容操作，判断不为空证明不是初始化数组
if (oldTab != null) {
//遍历数组
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
//判断当前下标为j的数组如果不为空的话赋值个e，进行下一步操作
if ((e = oldTab[j]) != null) {
//将数组位置置空
oldTab[j] = null;
//判断是否有下个节点
if (e.next == null)
//如果没有，就重新计算在新数组中的下标并放进去
newTab[e.hash & (newCap - 1)] = e;
//有下个节点的情况，并且判断是否已经树化
else if (e instanceof TreeNode)
//进行红黑树的操作
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
//有下个节点的情况，并且没有树化（链表形式）
else {
//比如老数组容量是16，那下标就为0-15
//扩容操作*2，容量就变为32，下标为0-31
//低位：0-15，高位16-31
//定义了四个变量
//        低位头          低位尾
Node<K,V> loHead = null, loTail = null;
//        高位头		   高位尾
Node<K,V> hiHead = null, hiTail = null;
//下个节点
Node<K,V> next;
//循环遍历
do {
//取出next节点
next = e.next;
//通过 与操作 计算得出结果为0
if ((e.hash & oldCap) == 0) {
//如果低位尾为null，证明当前数组位置为空，没有任何数据
if (loTail == null)
//将e值放入低位头
loHead = e;
//低位尾不为null，证明已经有数据了
else
//将数据放入next节点
loTail.next = e;
//记录低位尾数据
loTail = e;
}
//通过 与操作 计算得出结果不为0
else {
//如果高位尾为null，证明当前数组位置为空，没有任何数据
if (hiTail == null)
//将e值放入高位头
hiHead = e;
//高位尾不为null，证明已经有数据了
else
//将数据放入next节点
hiTail.next = e;
//记录高位尾数据
hiTail = e;
}
} 
//如果e不为空，证明没有到链表尾部，继续执行循环
while ((e = next) != null);
//低位尾如果记录的有数据，是链表
if (loTail != null) {
//将下一个元素置空
loTail.next = null;
//将低位头放入新数组的原下标位置
newTab[j] = loHead;
}
//高位尾如果记录的有数据，是链表
if (hiTail != null) {
//将下一个元素置空
hiTail.next = null;
//将高位头放入新数组的(原下标+原数组容量)位置
newTab[j + oldCap] = hiHead;
}
}
}
}
}
//返回新的数组对象
return newTab;
}

PS：JDK1.7下，HashMap扩容时，因为是头插法（比如下标1的位置上，Node链为Node A -> NodeB ，迁到新数组就是Node B -> NodeA），并发时，就可能会出现死循环，因此，JDK1.8时改为了尾插法。

7、HashMap的寻址算法

让key的哈希值右移16位，再和key的哈希值本身做个异或运算，目的是让hash值更加均匀，减少哈希冲突（扰动算法）。否则频繁的哈希冲突，会让数组下挂的链表长度过大，导致增删改查效率变低。

【Java面试】十五、HashMap相关插图(21)

put时，采用(n-1)&hash的方式计算索引，而不是取模，是因为按位与运算的性能更好，因此，这里不用key的哈希值对数组容量取模来计算下标值。

【Java面试】十五、HashMap相关插图(22)

但如果HashMap底层的数组容量不是2的次幂，那这两种计算方式的结果不相等，比如容量为15：

【Java面试】十五、HashMap相关插图(23)

8、为何HashMap底层的数组长度一定是2的次幂

1）计算索引时效率更高，如果是2的n次幂可以使用位与运算代替取模
2）扩容时重新计算索引效率更高，hash & oldCap == 0 的Node留在原下标的链表下，否则挂在旧下标 + oldCap所在位置的链表下（上面扩容时链表拆分的东西）

2024年六月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31