文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Spark-Alchemy中HyperLogLog如何使用

2023-06-19 12:53

关注

本篇文章给大家分享的是有关Spark-Alchemy中HyperLogLog如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

Reaggregation的挑战

Reaggregation的成立存在先决条件, 预先计算的维度可以再次进行聚合, 在字典释义中聚合表示可聚合性,通过进一步扩展该语义来解释reaggregation - 具有可以再次进行聚合的聚合, 求和,最大值,最小值都是可以reaggregation的, 但是distinct count是不支持reaggregation的,主要因为存在二次计数的问题, 统计每个网站的访问人数的总和并不等于访问网站的总人数,这是由于单个访问者可以访问多个网站。

这种不可重新聚合的特性使得计算distinct count的系统必须访问最细粒度的数据,因此每个查询需要访问每一行数据去统计distinct count。

Spark-Alchemy中HyperLogLog如何使用

在大数据领域, distinct counts存在另外一个问题,在计算过程需要的内存大小是更需要统计不同结果集的大小成正比的,为了避免上述问题,近年来一些大数据平台如Apache Spark 以及面向分析的数据库如Amazon RedShift引入基数估计的算法,该算法使用HyperLogLog(HLL)去估计distinct counts, 在spark 中如果要使用基数估计算法,只要使用approx_count_distinct(x [, rsd])代替COUNT(DISTINCT x)就可以运行, 其中可选参数rsd代表可以容忍的误差, 在databricks的测试报告, HLL的聚合性能可以达到精确计算distinct count性能的2-8倍,误差率保持在1%以上,用户可以追求更高精度,但是HLL算法的运行时间可能要比精确计算distinct count时间更长。

2-8倍性能的提升的代价是误差率始终保持在1%以上, 这在某些场景下是不可接受的, 此外在预先聚合能带来1000倍的性能提升面前, 2-8倍性能显得微不足道, 对此我们能做些什么?下面首先介绍下HLL算法。

HyperLogLog算法

HLL算法在Spark 处理流程可以分为以下几个部分

这种方法还能另外一种好处,通过该方法用户可以将误差率控制1%以内,由于预先聚合可以带来1000倍的提升,我们可以花费更长的时间来计算HLL以便达到更小的误差率,在预先聚合阶段,花费2-5倍的计算预先聚合时间是可以接受的, 对大多数用户而言,性能提升的同时基本没有任何其他方面的牺牲。

Spark-Alchemy介绍:HLL 功能

由于Spark社区不支持HLL功能,Swoop将这部分功能作为spark-alchemy库的一部分进行开源,用户可以参照HLL文档提供的样例, 相比BigQuery的HLL支持,Spark alchemy提供了更加丰富的功能。

下图显示spark alchemy HLL是如何处理聚合的初始化(hll_init_agg), 重新聚合(hll_merg) 以及最后结果的展示(hll_cardinality)

Spark-Alchemy中HyperLogLog如何使用

如果用户担心HLL sketches的存储开销, 通过以下规则可以进行简单的估算:精度提高2倍, HLL sketches的存储开销将会提升4倍, 在大部分应用程序中,记录数目的减少带来的存储开销的减少远远超过HLL sketch增加的开销

Spark-Alchemy中HyperLogLog如何使用

HyperLogLog互操作性

Distinct count精确计算以及估算模式的相互切换以及将HLL sketches保存为列式数据可以避免用户在查询的时候遍历所有记录数据, 但是系统在准备HLL数据的时候还是需要访问所有的记录数据。此外对于HLLsketches的序列化业界也没有统一的标准,所以HLL的数据在不同的系统中不能够共享, 这种互操作性的不便利性增加交互分析系统的分析成本以及复杂度。
交互式分析系统要求快速的响应时间,但是这个要求不是大数据系统核心的设计目标,这就是为什么现在交互式分析还运行在在关系型或者NoSQL数据库上的原因,没有HLL sketches的互操作性便利,用户可能在交互式查询还是使用原有的方式。
为了解决这个问题, spark alchemey在开发HLL相关功能时,提供了一种存储格式以及原生支持Postgres兼容的数据库, 这样对于要求快速响应时间的系统而言, spark就可以作为数据预处理统一平台, 这种架构的好处如下

以上就是Spark-Alchemy中HyperLogLog如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯