HyperLogLog

2025年02月18日

柏拉文

越努力，越幸运

一、认识

HyperLogLog 是一种高效的 基数估算 Cardinality 或不同元素数量的概率数据结构，它通过牺牲一定的精度来节省内存，适用于对大规模数据集进行基数估算的场景。Redis 提供了对 HyperLogLog 的支持，允许用户在进行大数据分析时能够以低成本高效地进行基数统计。它的主要特点是能够以非常小的内存消耗估算集合中不重复元素的数量，适用于大数据分析、日志分析、流量统计等场景。

HyperLogLog 优势: 1. 节省内存, HyperLogLog 通过概率算法来估算基数，使用的内存空间是固定的，与集合中元素的数量无关。对于大规模的数据集，内存消耗非常低; 2. 近似准确, 它的误差通常较小，适合大规模的基数估算场景，比如统计大量访问 IP 地址、网站访问量、独立用户数等; 3. 处理大规模数据, HyperLogLog 在处理大规模数据时，能够有效提供准确的估算结果，而不需要处理所有数据，避免了存储所有数据所带来的性能瓶颈。

HyperLogLog 原理: HyperLogLog 采用了一个基于哈希的算法，使用多个桶 来记录数据。每个桶存储的是该桶对应哈希值的一个特定部分的最大值。通过对这些桶的统计，HyperLogLog 能够对基数进行高效的估算。

哈希化数据：对于每个输入的元素，HyperLogLog 使用哈希函数计算出一个哈希值。
分配到桶：将哈希值分配到若干个桶中。每个桶会存储该哈希值中的某一部分信息。
统计最大连续零的数量: HyperLogLog 根据哈希值中的位模式来计算连续的零的数量，并记录这个值。这个零的数量间接反映了输入数据的分布情况。
估算基数：通过聚合各个桶中的统计数据，HyperLogLog 能够估算出集合的基数。

HyperLogLog 使用场景:

统计独立用户数（UV）：例如，你想估算网站在一天内的独立访客数，使用 HyperLogLog 可以在很小的内存消耗下快速得出结果。
估算网站或应用的独立 IP 数量：比如统计不重复的 IP 地址数量，而不需要存储每一个 IP。
A/B 测试：用于统计每个实验组的唯一用户数量。
数据流分析：比如计算实时数据流中的不同事件或事件发生次数。

一、认识​

一、认识