Redis数据类型之基数统计HyperLogLog

本文最后更新于：2025年4月13日

想学习更多Redis相关知识，请点击右侧链接查看Redis学习笔记：点我查看

一、Redis 基数统计类型（HyperLogLog）介绍

Redis HyperLogLog是一种概率型数据结构，用于统计当前集合的近似基数，它以完美的准确性换取了高效的空间利用率。

这里说的基数指的是集合中不重复元素数量。

统计集合中唯一数据项的数量通常和内存使用量成正比。也就是说，查询的唯一数据项的数量越多，消耗的内存也越多。一种简单暴力的方法就是我们记住都存储了那些元素，以避免多次计数，但是很显然，这并不是一个现实的选择。

有一种可以通过内存换取精度的算法，这个算法会返回一个带有标准误差的统计基数。Redis在使用HyperLogLog统计数据的情况下，标准误差小于1%。使用这个算法的好处在于，你不需要考虑统计数据所消耗内存的问题，所消耗的内存量是恒定的，最多也不超过12KB。如果你的数据很小，所需要的内存量也要比12KB小很多。

HyperLogLog最多使用12KB的内存空间，标准误差是**0.81%**。

从技术层面而言，HyperLogLog是一种不同的数据结构，但实际上编码仍然是字符串（String）：