码迷,mamicode.com
首页 > 其他好文 > 详细

HashMap 源码解读

时间:2021-03-10 13:04:15      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:gate   等于   计算方法   appdata   lis   front   平衡   尾插法   xtend   

HashMap 源码分析

0. 前置知识

0.1 位运算

技术图片

0.2 哈希值、哈希表、哈希函数

  • 哈希值
    通过一定的散列算法,把一个不固定长度的输入,转成一个固定长度的输出,输出的结果我们称之为哈希
    map中,hash就是一个int值

  • 哈希表: 存储哈希值的数组 -- 存取散列值(哈希值)的一个容器

  • 哈希值到底该如何存,该如何取呢??? -- 通过数组的角标实现数据的存取 角标就是索引

    ? 需要有一个映射:不同的hash值存在对应角标位
    ? hash值 ----运算---》 index
    ? (hash值通过某种运算得到 index)

  • 哈希函数:将哈希值通过某种运算规则得到对应index

  • 如何让存取效率是最高的???

    • 如果元素都是均匀存储在数据的角标位,而不产生冲突,就是最好的
    • 解决hash 冲突的方法
      1. 重哈希(再次进行哈希运算)
      2. 开放地址(找前找后有没有位置)
      3. 溢出区(再开辟新地址把所有的哈希冲突放在一起)
      4. 链地址法 (HashMap 采用的方法)
  • 怎么样尽可能少的产生hash冲突
    hash函数计算出来的角标要尽可以能均匀

		// indexFor 是 哈希函数,h 是某一位,算出来的是角标
		static int indexFor(int h, int length) {	
			return h & (length-1); 		// length 是 map 中数组的长度
		}

这里拿一个值 h 按位与 数组长度-1

0.3 为什么 Map 中数组的长度 length 是 2 的幂次方?

0.3.1 map 中数组长度 length 的规则是什么??

  • map 中数组长度 length 必须是 2 的幂次方数,因为 任何数和 2 的幂次方 - 1 做与运算,得到的结果都在 [0~ 2的幂次方 - 1] 这个范围内

    Tips:

    a & (2 ^ n - 1) == a % (2 ^ n),也就是说和 7 做与运算相当于 对 8 取模 (可以在纸上试一下)

  1. 假设上面是 0123,h 是 0123 某一位, indexFor 就是 拿 h 和 (length - 1) 做与运算,得到角标,如果 (length - 1) 不是 2的幂次方 - 1,那么就会有部分角标拿不到(因为只有和 1111 做 与运算 可以得到完整的,且不超过 (length - 1) 的数),数组的空间就浪费了一半,空间没有利用那么 hash 冲突产生的几率就增加了

  2. 扩容后,数据迁移时,数据要么在原来的位置,要么在(原来的位置 + 扩容长度)

如果 length 不是是 2 的幂次方,必然要重新 hash,现在不需要重新 hash,效率更好

下面是完整解释

  • 首先来看是不是,这里写一个方法,用反射的方式获取 Map 中数组的长度
public class TestHashMap01 {

    public static void main(String[] args) throws Exception {
        Map map = new HashMap();      // Map 在构建的时候传递了一个初始容量 initialCapacity,默认是16
        printTableLen(map);
    }


    /**
     * 反射获取 Map 中数组长度
     * @param map
     * @throws Exception
     */
    public static void printTableLen(Map map) throws Exception {
        // 获取类
        Class<? extends Map> cls = map.getClass();
        // 获取成员变量
        Field table  = cls.getDeclaredField("table");
        // 暴力反射
        table.setAccessible(true);
        Map.Entry[] arr = (Map.Entry[]) table.get(map);

        if (arr != null) {
            System.out.println("Map 中数组长度:" + arr.length);
        }
    }
}

// 这里我没有输出,为什么?? 理论上输出 16
// 如果 Map map = new HashMap(5)			会输出 8
// 如果 Map map = new HashMap(1)			会输出 1
这里发现 如果使用 jdk 1.7 会输出 
    Map 中数组的长度为:0
    如果使用 jdk 1.8
    什么也没有输出,为什么???

0.3.2 Map 中数组长度为什么是 2 的幂次方?

- 假设是 8
- 因为 8 - 1 = 7,二进制是 111, h & (length - 1) 就会得到

技术图片

假设长度不是2的幂次方

技术图片

  • 上面这段什么意思呢:

    技术图片

    假设上面是 0123,h 是 hash code,indexFor 就是 拿 h 和 (length - 1) 做与运算,得到角标 index,如果 (length - 1) 不是 2的幂次方 - 1,那么就会有部分角标拿不到(因为只有和 1111 做 与运算 可以得到完整的,且不超过 (length - 1) 的数)

  • 2 的幂次方,在扩容时,扩容后的数组长度是原数组长度的 2 倍,结果还是 2 的幂次方有什么好处?

    技术图片

扩容后,数据迁移时,数据要么在原来的位置,要么在(原来的位置 + 扩容长度)

如果 length 不是是 2 的幂次方,必然要重新 hash,现在不需要重新 hash,效率更好

0.4 确实产生了 Hash 冲突怎么办

  • 扩容 + 数据结构

0.4.1 扩容

0.4.1.1 什么时候扩容
  • jdk 1.7

    • 判断是否到达阈值(loadFactor 0.75 * 数组长度)

    • 同时是否产生 hash 冲突

      (ctrl + alt + shift + u 展示类之间结构(继承关系),ctrl + F12 (navigate -> file structure)展示文件结构(类的方法))

    • 这两个条件同时满足才会进入 resize 方法

    • 扩容后再添加元素,并且在添加元素的时候重新计算了角标位

    具体看下面的 存值分析

    • jdk1.7存值分析
    public V put(K key, V value) {
        //HashMap允许存储null键,存储在数组的0索引位置
        if (key == null)
            return putForNullKey(value);
        //内部通过一个扰乱算法获得一个hash值,用于计算数组索引
        int hash = hash(key);
        //计算数组索引
        int i = indexFor(hash, table.length);
        //判断是否是重复键,有值是一种情况,没有值是另一种情况
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
    
        // 如果 for 循环还没有找到值,往下走
        modCount++;
        //添加元素
        addEntry(hash, key, value, i);
        return null;
    }
    
    // 添加元素的方法
    void addEntry(int hash, K key, V value, int bucketIndex) {
        // 元素个数大于阈值,同时当前索引位有值,就会执行扩容操作
        // threshold 阈值 = capacity * loadFactor
        // bucketIndex 计算出的角标位
        if ((size >= threshold) && (null != table[bucketIndex])) {
            //2倍扩容
            resize(2 * table.length);	// resize 传递的参数是新的容量
            hash = (null != key) ? hash(key) : 0;
            //重新计算索引位置
            bucketIndex = indexFor(hash, table.length);
        }
    	//基于键值创建Entry节点,并以头插法存入对应位置
        createEntry(hash, key, value, bucketIndex);
    }
    
  • jdk 1.8

    • 先添加元素
    • 然后判断是否达到阈值
0.4.1.2 怎么扩容 ![img](file:///C:\Users\qinzh\AppData\Local\Temp\SGPicFaceTpBq\9732\0D41459C.png) (面试常考)
  • jdk 1.7

    • 添加元素使用 头插法 (多线程环境下会形成 环形链表)
    • 将单向链表的数据进行迁移

    技术图片

    	/**
         * Rehashes the contents of this map into a new array with a
         * larger capacity.  This method is called automatically when the
         * number of keys in this map reaches its threshold.
         *
         * If current capacity is MAXIMUM_CAPACITY, this method does not
         * resize the map, but sets threshold to Integer.MAX_VALUE.
         * This has the effect of preventing future calls.
         *
         * @param newCapacity the new capacity, MUST be a power of two;
         *        must be greater than current capacity unless current
         *        capacity is MAXIMUM_CAPACITY (in which case value
         *        is irrelevant).
         */
        void resize(int newCapacity) {
            Entry[] oldTable = table;		// table 是存数据的数组
            int oldCapacity = oldTable.length;
            if (oldCapacity == MAXIMUM_CAPACITY) {	// 如果旧的容量已经达到了最大的容量值,就扩不了了
                threshold = Integer.MAX_VALUE;
                return;
            }
            
    		// 如果旧的容量没有达到最大值
            // 创建一个新的数组,容量为新的容量值
            Entry[] newTable = new Entry[newCapacity];		
            // 新的数组出来了,数据迁移
            transfer(newTable, initHashSeedAsNeeded(newCapacity));
            table = newTable;
            threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
        }
    

数据迁移

技术图片

	/**
     * Transfers all entries from current table to newTable.  数据迁移
     */
    void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
        for (Entry<K,V> e : table) {
            while(null != e) {		// 不为空就进来
                Entry<K,V> next = e.next;		// 用一个变量记录 e.next
                // 这一步先不管它
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                // 拿 hash 值 与上 新的长度 - 1,得到角标
                int i = indexFor(e.hash, newCapacity);	
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

举个例子:

一开始,假设容量为 4 ,扩容容量为 8,新数组为空,链表是 10, 6, 2,e指向10,next指向 6

技术图片 与运算就是取模,i = 10 & 7 = 10 % 8 = 2,

int i = indexFor(e.hash, newCapacity); 得到的是2,

e.next = newTable[i]; 把 newTable[i] 赋给 e.next,也就是让 e.next 指向 newTable[i]

newTable[i] = e; 把 原来 e 的值,也就是 10 赋给 newTable[i]

e = next; 再让 e 指向 next,也就是原来的 e.next 也就是 6 的位置

这样,第一次 while 循环就结束了,如图所示

技术图片注意此时,e 变了之后,e.next 就不再指向 newTable[i] 了,现在指向的是 2 的位置

然后再经历一次 while 循环,把 e.next 也就是 2 记录为 next,6 对 8 取余为 6,把 6 放到新数组中 6 的位置,再让 e 指向 next 也就是 2(这里看到 e.next = newTable[i] 这一步好像没有什么用啊,其实不然 )

技术图片 继续 while 循环,e 不为空,但是 e.next 为空了,2 模与 8 为 2,i = 2,注意这时,有冲突了,解决办法就是,e.next = newTable[i] ,让 e.next 指向现在新数组中索引为 i 的位置,接着把 e 赋给 newTable[i],也就是先把 10 赋给 e.next,然后把 2 放到新数组中 2 的位置,然后让 2 的 next 为 10,最后把 next 赋给 e,现在 e 是空了, while 循环就结束了,数据迁移就做完了,如下图所示

技术图片

  • 1.7 会出现的问题 死循环

    • 假设线程1 执行到 next = e.next 后,cpu 失去了,是这种状态

    技术图片

    线程2 执行完成,是这种状态技术图片

    线程 2 transfer 一做完,注意 resize 方法里的代码,

    技术图片

    table 就发生变化了,table 变成了 newTable

    接下来线程 1 继续执行,注意这里 线程1 继续执行时候 的 for 循环遍历的 table 数组已经是 newTable了

    技术图片

    因此这里的 e 就是 图中的 10

    技术图片

    				int i = indexFor(e.hash, newCapacity);	
                    e.next = newTable[i];
                    newTable[i] = e;
                    e = next;
    

    10 对应的 角标仍然是 2,i = 2

    e.next = newTable[i],这里让 e.next 指向 newTable[i] 也就是 2,如图所示,也就形成了死循环,e.next 永远有值

    技术图片

    这就是 HashMap 不是线程安全的原因

  • jdk 1.8

    • 添加元素使用 尾插法

    技术图片

    ? 这段代码就是单向链表的尾插法

    • 如果对应角标位是单向链表,将单向链表进行数据迁移
    • 如果对应角标位是 红黑树,将 双向链表 进行数据迁移
      • 如果 >= 8 会变成红黑树,同时会维护一个双向链表,就是为了方便数据迁移
    • 如果发现迁移完数据后,双向链表的结构小于/等于6,会将红黑树重新转回单向链表的结构 (看下面 jdk 1.8 - 扩容 - 维护双向链表 部分)
0.4.1.3 扩容后有什么问题
  • jdk 1.7
    • 多线程环境下会形成环形链表 (见上面解释)
  • jdk 1.8

技术图片

  • jdk 1.8 多线程情况下,会有数据丢失的问题

    • 线程 1 向 1 号角标存了 一个 10,线程 2 向 1 号角标存了 一个 12

      因为 上面是 直接赋值 tab[index] = loHead.untreeify(map);

      因此会直接覆盖,会有数据丢失的问题

    • 多线程的情况下 可以用 ConcurrentHashMap

0.4.2 数据结构解决 hash 冲突

  • jdk 1.7
    • 产生冲突后,会形成单向链表
  • jdk 1.8
    • 产生冲突后,会形成单向链表
    • 如果单向链表的长度 >= 8,会转成红黑树 + 双向链表(双向链表是扩容时使用的)

HashMap源码分析

1、HashMap存取值的原理

1.1 存值分析:

1.1.1 jdk1.7存值分析

public V put(K key, V value) {
    //HashMap允许存储null键,存储在数组的0索引位置
    if (key == null)
        return putForNullKey(value);
    //内部通过一个扰乱算法获得一个hash值,用于计算数组索引
    int hash = hash(key);
    //计算数组索引
    int i = indexFor(hash, table.length);
    //判断是否是重复键,有值是一种情况,没有值是另一种情况
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }

    // 如果 for 循环还没有找到值,往下走
    modCount++;
    //添加元素
    addEntry(hash, key, value, i);
    return null;
}
// 添加元素的方法
void addEntry(int hash, K key, V value, int bucketIndex) {
    // 元素个数大于阈值,同时当前索引位有值,就会执行扩容操作
    // threshold 阈值 = capacity * loadFactor
    // bucketIndex 计算出的角标位
    if ((size >= threshold) && (null != table[bucketIndex])) {
        //2倍扩容
        resize(2 * table.length);
        hash = (null != key) ? hash(key) : 0;
        //重新计算索引位置
        bucketIndex = indexFor(hash, table.length);
    }
	//基于键值创建Entry节点,并以头插法存入对应位置
    createEntry(hash, key, value, bucketIndex);
}

1.1.2 jdk1.8存值分析

public V put(K key, V value) {
    // hash(key)计算hash值,用于计算索引
    return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //完成初始化容器
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //得到的索引位没有元素,直接存入
    if ((p = tab[i = (n - 1) & hash]) == null) // p 就是 table 中的元素
        tab[i] = newNode(hash, key, value, null);
    else {
        //索引位有元素
        Node<K,V> e; K k;
        // 如果 p 是重复元素
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 如果是红黑树节点 TreeNode 是红黑树
        else if (p instanceof TreeNode)
            //入树
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        
        // 以上两种都不是,就是单向链表
        else {
            // 遍历链表依次比较键
            for (int binCount = 0; ; ++binCount) {
                // p.next 赋值给 e,没有重复键
                if ((e = p.next) == null) {
                    // 尾插法,添加元素,形成单向链表
                    p.next = newNode(hash, key, value, null);
                    // 如果加完之后数量 >= 8个,将链表 树化
                    // TREEIFY_THRESHOLD = 8, binCount 是从 0 开始的
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        // treeifyBin 把链表树化 ,把 Node节点转换为 TreeNode
                        treeifyBin(tab, hash);                    
                    break;
                }
                //有重复键
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            //键重复,更新值
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    
    // 容量超过阈值,扩容
    if (++size > threshold)		// 这里的 threshold 计算方法和 jdk 1.7 不一样
        resize();
    afterNodeInsertion(evict);
    return null;
}
1.1.2.2 树化方法 treeifyBin

技术图片

	/**
     * Replaces all linked nodes in bin at index for given hash unless
     * table is too small, in which case resizes instead.
     * 树化方法
     */
    final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            
            // 下面这个循环是形成双向链表
            do {
                // 把 Node 节点 e 转换为 TreeNode
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)		// 第一次进来 tl 肯定为空
                    hd = p;			// hd 记录 p
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;				// tl 也在记录元素 p
            } while ((e = e.next) != null);
            
            // treeify 真正的形成树形结构
            if ((tab[index] = hd) != null)
                hd.treeify(tab);	
        }
    }

技术图片

TreeNode

截取一部分

技术图片

? TreeNode 继承了 Entry

技术图片

Entry 继承了 Node

技术图片

Node 里面有 next,记录下一个,TreeNode里面有 prev,记录上一个,也就是说 TreeNode 在形成链表的时候同时记录上一个和下一个,是一个双向链表

1.1.2.3 jdk 1.8 双向链表是怎么形成的

维护双向链表的目的就在于 扩容

看上面的 treeifyBin 里面的 do-while 部分

技术图片

1.1.2.4 treeify 方法
		/**
         * Forms tree of the nodes linked from this node.
         * @return root of tree
         */
        final void treeify(Node<K,V>[] tab) {
            TreeNode<K,V> root = null;
            for (TreeNode<K,V> x = this, next; x != null; x = next) {
                next = (TreeNode<K,V>)x.next;
                x.left = x.right = null;
                if (root == null) {
                    x.parent = null;
                    x.red = false;
                    root = x;
                }
                else {
                    K k = x.key;
                    int h = x.hash;
                    Class<?> kc = null;
                    for (TreeNode<K,V> p = root;;) {
                        int dir, ph;
                        K pk = p.key;
                        if ((ph = p.hash) > h)
                            dir = -1;
                        else if (ph < h)
                            dir = 1;
                        else if ((kc == null &&
                                  (kc = comparableClassFor(k)) == null) ||
                                 (dir = compareComparables(kc, k, pk)) == 0)
                            dir = tieBreakOrder(k, pk);

                        TreeNode<K,V> xp = p;
                        if ((p = (dir <= 0) ? p.left : p.right) == null) {
                            x.parent = xp;
                            if (dir <= 0)
                                xp.left = x;
                            else
                                xp.right = x;
                            root = balanceInsertion(root, x);
                            break;
                        }
                    }
                }
            }
            moveRootToFront(tab, root);
        }
1.1.2.5 为什么是大于等于 8 个 就变成红黑树?

技术图片

概率学问题,链表的长度为 8 的概率为 1000w 分之 6,超过 8 概率为 千万分之 1 (泊松分布)

也就是说尽量不进行树化,因为它要维护双向链表还要维护树,维护树的时候还要考虑红黑树的平衡,必然涉及到变色和旋转,变色和旋转是很慢很麻烦的,因此尽量不进行树化,也就是说在概率很低的情况下才进行树化

1.1.2.6 jdk 1.8 的扩容机制
	/**
     * Initializes or doubles table size.  If null, allocates in
     * accord with initial capacity target held in field threshold.
     * Otherwise, because we are using power-of-two expansion, the
     * elements from each bin must either stay at same index, or move
     * with a power of two offset in the new table.
     *
     * @return the table
     */
    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        
        // 数据迁移
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;		// 只有一个元素的话直接加进去
                    
                    // 如果是个树
                    else if (e instanceof TreeNode)
                        // split 方法     数据迁移
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    
                    // 维护单向链表
                    else { // preserve order 维护秩序
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            
                            // 拿 e 的 hash 值 与上 旧的容量
                            // 为 0 代表在原位置,不为零代表在新位置 (原理见下面注释)
                            // 在原位置
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            // 在新位置
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        
                        if (loTail != null) {
                            loTail.next = null;
                            // 新数组的原始位置
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

/*
举个例子:
原容量为 8,新容量为 16,角标为 5,如果角标没变还是5,就得到 0,如果角标变成了 13,就得到了 8 
            5       0000 0101
            		0000 1000
            		---------
            		0000 0000            0
            
           13 		0000 1101
            		0000 1000
            		---------
            		0000 1000			 8			

原理就是 原来的角标一定是小于旧的容量的,没变的话做与运算一定为0,变了就是 加上了旧的容量,相与会得到旧的容量
*/  
  • 维护单向链表

加入一开始 有 10 -> 2 -> 14 一个单向链表 (图中写错了)

技术图片

经过上述代码中的 do-while 循环后,得到下面的情况

技术图片

再经过下述代码变为扩容后的情况

技术图片

也就是 低位的形成一个单向链表,高位的形成一个单向链表,再分别放入新数组的不同的位置,这样就避免了一个环形结构的形成

  • 维护双向链表
    • 数据迁移 split 方法,和上边单链表处理方式类似
	final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
            // 把 this 赋给 b
    		TreeNode<K,V> b = this;
            // Relink into lo and hi lists, preserving order
            TreeNode<K,V> loHead = null, loTail = null;
            TreeNode<K,V> hiHead = null, hiTail = null;
            int lc = 0, hc = 0;
    		// 把 b 赋给 e
            for (TreeNode<K,V> e = b, next; e != null; e = next) {
                next = (TreeNode<K,V>)e.next;		// 用 next 记录 e.next
                // 把 e 和 next 之间的断掉了,例子中就是把 10 和 2 之间的断掉了
                e.next = null;
                
                if ((e.hash & bit) == 0) {
                    if ((e.prev = loTail) == null)
                        loHead = e;
                    else
                        loTail.next = e;
                    loTail = e;
                    ++lc;		// lc 低位的元素个数                   
                }
                else {
                    if ((e.prev = hiTail) == null)
                        hiHead = e;
                    else
                        hiTail.next = e;
                    hiTail = e;
                    ++hc;		// 高位的元素个数
                }
            }

            if (loHead != null) {
                /* 
                   如果高低位的元素个数 <= 6,用 untreeify 方法把树形结构重新转成单向链表
                   UNTREEIFY_THRESHOLD = 6 ,threshold 阈值
                   注意这个只在扩容的时候用,删除的时候把树变成单向链表不是按照这个值来判断的
                   如果超过 6 就转成红黑树
                 */
                if (lc <= UNTREEIFY_THRESHOLD)
                    tab[index] = loHead.untreeify(map);
                else {
                    tab[index] = loHead;
                    if (hiHead != null) // (else is already treeified)
                        loHead.treeify(tab);
                }
            }
            if (hiHead != null) {
                if (hc <= UNTREEIFY_THRESHOLD)
                    tab[index + bit] = hiHead.untreeify(map);
                else {
                    tab[index + bit] = hiHead;
                    if (loHead != null)
                        hiHead.treeify(tab);
                }
            }
        }

假设一个双向链表

技术图片

维护完之后

技术图片

2、取值分析
  • jdk1.7取值
public V get(Object key) {
	//取空键对应的值
    if (key == null)
        return getForNullKey();
    //取非空键对应的值
    Entry<K,V> entry = getEntry(key);

    return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
    int hash = (key == null) ? 0 : hash(key);
    //遍历链表获取值
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
         e != null;
         e = e.next) {
        Object k;
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            return e;
    }
    return null;
}
  • jdk1.8取值分析
public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        //检查头部元素是否是要找的元素
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            //红黑树查找
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
                //链表查找
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

2、HashMap如何防止碰撞

解决hash碰撞的方式有很多,比如开放地址法,重哈希,链地址法,公共溢出区等等。

HashMap中防止碰撞的方式主要有两个:哈希值扰动+链地址法(当扰动后,还是hash碰撞,使用链表/红黑树存储元素)

  • jdk1.7扰动
final int hash(Object k) {
    int h = 0;
    h ^= k.hashCode();
    //充分利用高低位
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}


 01100011 00001110 11000110 00011001
 00000000 01101010 11001100 00011001
  • jdk1.8扰动
 static final int hash(Object key) {
     int h;
     //充分利用高低位
     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
 }

3、HashMap容量取值问题

  • jdk1.7默认容量
public HashMap() {
    //默认容量16
    this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
  • jdk1.7自定义容量
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    //超过最大容纳量,取最大容量
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    //负载因子容错处理
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);

    //通过1左移运算,找到一个大于/等于自定义容量的最小2的幂次方数
    int capacity = 1;
    while (capacity < initialCapacity)
        capacity <<= 1;

    this.loadFactor = loadFactor;
    threshold = (int)Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
    //基于容量,创建数组
    table = new Entry[capacity];
    useAltHashing = sun.misc.VM.isBooted() &&
            (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
    init();
}
int capacity = 1;
while (capacity < initialCapacity)
	capacity <<= 1;
	
例:
	假设自定义容量取值为10
	
	1<10
	1进行左移运算
	0000 0000 0000 0000 0000 0000 0000 0001  -- 新容量等于1
	<<  
	0000 0000 0000 0000 0000 0000 0000 0010  -- 新容量等于2
	2<10
	2进行左移运算
	0000 0000 0000 0000 0000 0000 0000 0010
	<< 
	0000 0000 0000 0000 0000 0000 0000 0100  -- 新容量等于4
	4<10
	4进行左移运算
	0000 0000 0000 0000 0000 0000 0000 0100
	<< 
	0000 0000 0000 0000 0000 0000 0000 1000  -- 新容量等于8
	8<10
	8进行左移运算
	0000 0000 0000 0000 0000 0000 0000 1000
	<< 
	0000 0000 0000 0000 0000 0000 0001 0000  -- 新容量等于16

为什么容量必须是2的幂次方数呢?

① 以上那些2的幂次方数有一个特点,高位为1,后续全部为0,这样的数减一,就会变成刚才为1的位置为0,后续所有值都为1,这样减一之后的数,和任何数进行与运算,得到的结果,永远是0-2的幂次方减一,正好符合数组角标的范围。

② 同时减一后,一定是一个奇数,末位一定是1,那么和其他数进行与运算后,得到的结果可能是奇数,也可能是偶数,那么可以充分利用数组的容量。

③ 2的幂次方数减一后,低位都是1,这样数组的索引位都有可能存入元素,如果低位不都是1,就会导致有些数组的索引位永远空缺,不利于数组的充分利用

④ 便于扩容时,重新定位元素的索引位,我们知道扩容的原则是原来数组的2倍,那么扩容后,数组容量还是一个2的幂次方数,原数组中的元素在新数组中,要么在原始索引位,要么在原始索引位+扩容值的位置,避免了重新hash的效率问题

  • jdk1.8容量赋值

注意,jdk1.8的容量计算动作,在resize()扩容方法中完成。

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
  • jdk1.8中容量计算:
static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
	
假设初始容量设置为10:

n = 10-1     
    0000 0000 0000 0000 0000 0000 0000 1001  //9
n右移1位
    0000 0000 0000 0000 0000 0000 0000 0100  //4
|   0000 0000 0000 0000 0000 0000 0000 1001  //9
-----------------------------------------------------
	0000 0000 0000 0000 0000 0000 0000 1101  //13
n右移2位
	0000 0000 0000 0000 0000 0000 0000 0011
|	0000 0000 0000 0000 0000 0000 0000 1101
---------------------------------------------------
	0000 0000 0000 0000 0000 0000 0000 1111  //15
n右移4位
	0000 0000 0000 0000 0000 0000 0000 0000
|	0000 0000 0000 0000 0000 0000 0000 1111
----------------------------------------------------
	0000 0000 0000 0000 0000 0000 0000 1111  //15

通过一系列右移+或运算后,能够将初始值减一得到的值,后面的所有0变成1,最终返回的是得到的值+1的结果作为容量,正好就是大于等于给定容量的2的幂次方数

4、HashMap数据结构(1.7和1.8对比)

  • jdk1.7数据结构:数组+单向链表
void createEntry(int hash, K key, V value, int bucketIndex) {
    //取出索引位置的元素
    Entry<K,V> e = table[bucketIndex];
    //将新的元素放置到索引位,同时将原来的作为新元素的下一个保存,形成单向链表
    //头插法
    table[bucketIndex] = new Entry<>(hash, key, value, e);
    size++;
}
  • jdk1.8数据结构:数组+单向链表+红黑树+双向链表

数组和单向链表的结构,在这里就不再赘述了,前面存取元素的过程中已经分析

这里我们来看下红黑树和双向链表结构

//当添加元素后,单向链表长度达到8个会执行该方法
final void treeifyBin(Node<K,V>[] tab, int hash) {
    int n, index; Node<K,V> e;
    //如果此时数组长度小于64,会通过扩容数组的方式,来避免单向链表过长
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        resize();
    //通过转成红黑树,来避免单向链表过长
    else if ((e = tab[index = (n - 1) & hash]) != null) {
        TreeNode<K,V> hd = null, tl = null;
        do {
            //把所有Node节点,转成TreeNode节点,并形成双向链表
            TreeNode<K,V> p = replacementTreeNode(e, null);
            if (tl == null)
                hd = p;
            else {
                p.prev = tl;
                tl.next = p;
            }
            tl = p;
        } while ((e = e.next) != null);
        if ((tab[index] = hd) != null)
            //将双向链表中的元素形成红黑树结构
            hd.treeify(tab);
    }
}
//当添加元素时,对应的索引位置为TreeNode节点,会执行该方法
final TreeNode<K,V> putTreeVal(HashMap<K,V> map, Node<K,V>[] tab,
                               int h, K k, V v) {
    Class<?> kc = null;
    boolean searched = false;
    TreeNode<K,V> root = (parent != null) ? root() : this;
    for (TreeNode<K,V> p = root;;) {
        int dir, ph; K pk;
        if ((ph = p.hash) > h)
            dir = -1;
        else if (ph < h)
            dir = 1;
        else if ((pk = p.key) == k || (k != null && k.equals(pk)))
            return p;
        else if ((kc == null &&
                  (kc = comparableClassFor(k)) == null) ||
                 (dir = compareComparables(kc, k, pk)) == 0) {
            if (!searched) {
                TreeNode<K,V> q, ch;
                searched = true;
                if (((ch = p.left) != null &&
                     (q = ch.find(h, k, kc)) != null) ||
                    ((ch = p.right) != null &&
                     (q = ch.find(h, k, kc)) != null))
                    return q;
            }
            dir = tieBreakOrder(k, pk);
        }
		//以上逻辑,就是在遍历红黑树,决定新元素放置的位置
        TreeNode<K,V> xp = p;
        if ((p = (dir <= 0) ? p.left : p.right) == null) {
            Node<K,V> xpn = xp.next;
            TreeNode<K,V> x = map.newTreeNode(h, k, v, xpn);
            //找到新元素放置的位置,并将其添加进红黑树结构
            if (dir <= 0)
                xp.left = x;
            else
                xp.right = x;
            //同时维护双向链表结构
            xp.next = x;
            x.parent = x.prev = xp;
            if (xpn != null)
                ((TreeNode<K,V>)xpn).prev = x;
            //通过变色+旋转达到红黑树的自平衡
            moveRootToFront(tab, balanceInsertion(root, x));
            return null;
        }
    }
}

你可能会有疑问,为什么在维护红黑树的同时,需要再维护一种双向链表的结构呢?其实主要是为了扩容方便的

5、HashMap扩容时机及扩容机制

  • jdk1.7扩容:先扩容,在添加值
void addEntry(int hash, K key, V value, int bucketIndex) {
    //当元素个数达到了扩容阈值,同时元素该放置的位置有元素时,会执行扩容
    if ((size >= threshold) && (null != table[bucketIndex])) {
        //扩容为原来的两倍
        resize(2 * table.length);
        hash = (null != key) ? hash(key) : 0;
        bucketIndex = indexFor(hash, table.length);
    }
    //扩容之后,在将新元素添加进集合
    createEntry(hash, key, value, bucketIndex);
}
void resize(int newCapacity) {
    Entry[] oldTable = table;
    int oldCapacity = oldTable.length;
    //达到最大容量,不扩容
    if (oldCapacity == MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return;
    }
    //根据新容量创建数组
    Entry[] newTable = new Entry[newCapacity];
    boolean oldAltHashing = useAltHashing;
    useAltHashing |= sun.misc.VM.isBooted() &&
            (newCapacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
    //计算是否需要重新计算hash
    boolean rehash = oldAltHashing ^ useAltHashing;
    //将旧数组中的元素迁移到新的数组中
    transfer(newTable, rehash);
    //保存新数组
    table = newTable;
    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    for (Entry<K,V> e : table) {
        while(null != e) {
            //记录遍历到的元素的下一个元素
            Entry<K,V> next = e.next;
            if (rehash) {
                e.hash = null == e.key ? 0 : hash(e.key);
            }
            //计算新数组的角标位置
            int i = indexFor(e.hash, newCapacity);
            //把当前元素的下一个改为新数组对应位置的元素--头插法
            e.next = newTable[i];
            //将当前元素放置在数组对应索引位置
            newTable[i] = e;
            //再次迁移下一个元素
            e = next;
        }
    }
}

技术图片

  • jdk1.8扩容:先添加值,再扩容
//元素个数,达到扩容阈值,就扩容
//这个方法前半部分初始化数组的逻辑之前已经分析过了
final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        //数组容量达到最大值,不扩容
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        //新的数组容量为原来的2倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                //数组角标位置只有一个元素,直接将数据迁移到新数组
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;
                //数组角标位置为TreeNode,迁移红黑树数据
                else if (e instanceof TreeNode)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    //迁移单向链表数据
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    //先遍历整个单向链表,元素放置的位置,要么是原来的位置,要么是原来位置+扩容容量的位置
                    do {
                        next = e.next;
                        //放置在原来角标位置的元素
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                //尾插法
                                loTail.next = e;
                            loTail = e;
                        }
                        //放置在原来角标+扩容容量 位置的元素
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                //尾插法
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    //将放置在原角标位的元素存入数组
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    //将放置在新角标位的元素存入数组
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

红黑树数据的迁移

final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
    TreeNode<K,V> b = this;
    // Relink into lo and hi lists, preserving order
    TreeNode<K,V> loHead = null, loTail = null;
    TreeNode<K,V> hiHead = null, hiTail = null;
    int lc = 0, hc = 0;
    //通过遍历双向链表,实现数据迁移
    for (TreeNode<K,V> e = b, next; e != null; e = next) {
        next = (TreeNode<K,V>)e.next;
        e.next = null;
        //原角标位置
        if ((e.hash & bit) == 0) {
            //记录前一个
            if ((e.prev = loTail) == null)
                loHead = e;
            else
                //记录下一个 -- 尾插法
                loTail.next = e;
            loTail = e;
            //该标记累计,用于判断是否需要转会单向链表
            ++lc;
        }
        //原角标+扩容容量 位置
        else {
            //记录前一个
            if ((e.prev = hiTail) == null)
                hiHead = e;
            else
                //记录下一个 -- 尾插法
                hiTail.next = e;
            hiTail = e;
            //该标记累计,用于判断是否需要转会单向链表
            ++hc;
        }
    }

    if (loHead != null) {
        //元素个数小于等于6,转成单向链表
        if (lc <= UNTREEIFY_THRESHOLD)
            tab[index] = loHead.untreeify(map);
        else {
            //存入新的数组
            tab[index] = loHead;
            if (hiHead != null) // (else is already treeified)
                //树化
                loHead.treeify(tab);
        }
    }
    if (hiHead != null) {
        //元素个数小于等于6,转成单向链表
        if (hc <= UNTREEIFY_THRESHOLD)
            tab[index + bit] = hiHead.untreeify(map);
        else {
            //存入新的数组
            tab[index + bit] = hiHead;
            if (loHead != null)
                //树化
                hiHead.treeify(tab);
        }
    }
}
//将红黑树转成单向链表
final Node<K,V> untreeify(HashMap<K,V> map) {
    Node<K,V> hd = null, tl = null;
    for (Node<K,V> q = this; q != null; q = q.next) {
        Node<K,V> p = map.replacementNode(q, null);
        if (tl == null)
            hd = p;
        else
            //尾插法,形成单向链表
            tl.next = p;
        tl = p;
    }
    return hd;
}

技术图片

6、多线程下HashMap扩容的问题(1.7和1.8对比)

  • jdk1.7,多线程扩容情况下,会导致循环引用

技术图片

  • jdk1.8,多线程环境下,会导致数据丢失问题
// 添加元素时,会有数据覆盖丢失数据
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //此处,如果多个线程向同一个位置存入元素,会有值覆盖的问题,导致数丢失
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    
    //下面代码省略
// 扩容时,迁移数据的情况下,会有数据覆盖丢失的问题
// 多线程环境下,给同一个数组的相同位置赋值,会有数据覆盖的风险
if (loTail != null) {
    loTail.next = null;
    newTab[j] = loHead;  //将原始索引位的数据迁移到新数组
}
if (hiTail != null) {
    hiTail.next = null;
    newTab[j + oldCap] = hiHead; //将新索引位的数据迁移到新数组
}

当然,jdk1.8中的HashMap本身是线程不安全的,在多线程环境下,应该还会有更多其他问题,有待大家一起去探究。

HashMap 源码解读

标签:gate   等于   计算方法   appdata   lis   front   平衡   尾插法   xtend   

原文地址:https://www.cnblogs.com/icewalnut/p/14485836.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!