文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Redis的HyperLogLog算法怎么用

2024-04-02 19:55

关注

这篇文章主要介绍了Redis的HyperLogLog算法怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Redis的HyperLogLog算法怎么用文章都会有所收获,下面我们一起来看看吧。

Redis的HyperLogLog算法怎么用

今天是周五,你正开心的摸鱼,产品经理通过邮件给你发了一个需求文档。需求大概是:公司要统计网站每天的访客 IP,而且这个统计是一个长期的行为,短则数月、长则几年。

你看完需求就觉得这 so easy 啊,使用 Redis 的集合类型可以轻松实现这个功能:每天生成一个集合类型的键,使用 SADD 存储每天的访客 IP,使用 SCARD 命令就可以轻松得到每天访客 IP 的数量。

你很快就敲完了代码并通过测试,这个功能就上线了。上线后运行一段时间发现 Redis 所在服务器开始告警,原因是某些键的内存占用过大,你看了一下发现这些键都是存储访客 IP 的集合键。你这才拍了一下脑袋,知道自己给自己挖了一个大坑。

假设存储一个 IPv4 格式的 IP 地址最多需要 15 个字节,网站每天最多有 100 万个访客访问网站。这些集合键一个月就将使用 0.45 GB 的内存,一年将占用 5.4 GB 的内存,这还只是估算了 IPv4 格式的情况下,若是 IPv6 格式将占用更多的内存。SADD 和 SCARD 的时间复杂度虽然都是 O(1),但是它们对内存的消耗是无法接受的。

你在 Redis 的官方网站翻了翻,发现 Redis 还提供了一种数据类型 HyperLogLog,它既可以实现产品的需求还占用更少的内存。

HyperLogLog 算法

HyperLogLog 是一个专门为了计算集合的基数而创建的概率算法,它可以计算出一个给定集合的近似基数。

近似基数并非集合的实际基数,它可能会比实际的基数小一点或者大一点,但是估算基数和实际基数之间的误差会处于一个合理的范围之内,对于那些不要求十分精确的统计就可以使用 HyperLogLog 算法。

HyperLogLog 的优点在于它计算近似基数所需的内存并不会因为集合的大小而改变,无论集合包含的元素有多少个,HyperLogLog 进行计算所需的内存总是固定的,并且是非常少的。

Redis 的每个 HyperLogLog 类型只需要使用 12KB 内存空间,就可以对接近:264 个元素进行计数,而算法的标准误差仅为 0.81%。

如果使用 HyperLogLog 类型实现上述功能,每天有 100 万个访客的情况下,1 个月也仅仅占用 360KB 的内存。

PFADD

通过 PFADD 命令可以对给定的一个或多个集合元素进行计数。

PFADD key element [element...]

根据给定的元素是否已经进行过计数,PFADD 命令可能返回 0,也可能返回 1:

例如:

redis> PFADD letters a b c -- 第一次添加
(integer) 1
redis> PFADD letters a     -- 第二次添加
(integer) 0

如果在调用该命令时仅指定 key 而不指定元素也是可以的,如果 key 存在,则不会有任何操作,如果不存在,则会创建一个数据结构(返回 1)。

PFCOUNT

通过 PFCOUNT 命令可以获取 HyperLogLog 为集合计算出的近似基数。若给定的 key 不存在将返回 0。

PFCOUNT key [key...]

例如:

redis> PFCOUNT letters
(integer) 3

当向 PFCOUNT 传入多个 HyperLogLog 时,PFCOUNT 命令将先对所有的 HyperLogLog 求并集,然后返回近似基数。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFCOUNT letters1 letters2
(integer) 5

PFMERGE

PFMERGE 命令可以对多个 HyperLogLog 执行并集计算,然后把计算得出的并集 HyperLogLog 保存到指定的键中。

PFMERGE destKey sourceKey [sourceKey...]

如果指定的键已经存在,PFMERGE 命令将覆盖已有的键。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFMERGE res letters1 letters2
OK
redis> PFCOUNT res
(integer) 5

可以看到 PFMERGE 和 PFCOUNT 命令十分相似,实际上 PFCOUNT 命令在计算多个 HyperLogLog 的近似基数时会执行以下操作:

当程序需要对多个 HyperLogLog 调用 PFCOUNT 命令,并且这个调用可能会重复执行多次时,可以考虑把这一调用替换成相应的 PFMERGE 命令调用:通过把并集的计算结果存储到指定的 HyperLogLog 中而不是每次都重新计算并集,程序可以最大程度地减少不必要的并集计算。

业务场景

HyperLogLog 的特性十分适合:计数(月度、年度统计)、去重(垃圾短信检测)等场景。

关于“Redis的HyperLogLog算法怎么用”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“Redis的HyperLogLog算法怎么用”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注亿速云行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯