文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

SparkSQL指的是什么

2023-06-02 21:58

关注

这篇文章主要为大家展示了“SparkSQL指的是什么”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“SparkSQL指的是什么”这篇文章吧。

一、 Spark SQL介绍

        

        Spark SQL是Apache Spark's的一个模块,用来处理结构化数据,1.0后产生;SQL语句主要体现在关系型数据库上,大数据中基于Hadoop的SQL有Hive(SQL on Hadoop)但是MapReduce计算过程中大量的磁盘落地过程消耗了大量I/O,降低运行效率,简单说就是稳定性高,计算慢,离线批处理的框架,因此其他的SQL on Hadoop工具产生。

        SQL on Hadoop

        Hive on SQL是社区发展另外一个路线,属于Hive发展计划,把Spark作为Hive的执行引擎;之前我们说的HIve作业跑在Hadoop的MapReduce上的;现在Hive不受限于一个引擎,可以采用MapReduce、Tez、Spark等引擎。

二、 Spark SQL特性

三、 Spark SQL优势

      A:内存列存储(In-Memory Columnar Storage)

    Spark SQL的表数据在内存中的存储采用是内存列式存储,而不是原生态JVM对象存储方式。

     SparkSQL指的是什么

     Spark SQL列式存储将数据类型相同列采用原生数组来存储,将Hive支持的复杂数据类型(如array、map等)先序化后并接成一个字节数组来存储。这样,每个列创建一个JVM对象,从而导致可以快速的GC和紧凑的数据存储;额外的,还可以使用低廉CPU开销的高效压缩方法(如字典编码、行长度编码等压缩方法)降低内存开销;更有趣的是,对于分析查询中频繁使用的聚合特定列,性能会得到很大的提高,原因就是这些列的数据放在一起,更容易读入内存进行计算

    B:字节码生成技术(bytecode generation,即CG)

        数据库查询中有一个昂贵的操作是查询语句中的表达式,主要是由于JVM的内存模型引起的。比如如下一个查询:

中有一个昂在这个查询里,如果采用通用的SQL语法途径去处理,会先生成一个表达式树。

select a+b from table

SparkSQL指的是什么

在物理处理这个表达式树的时候,将会如图所示的7个步骤

    1.  调用虚函数Add.eval(),需要确认Add两边的数据类型

    2.  调用虚函数a.eval(),需要确认a的数据类型

    3.  确定a的数据类型是Int,装箱

    4.  调用虚函数b.eval(),需要确认b的数据类型

    5.  确定b的数据类型是Int,装箱

    6.  调用Int类型的Add

    7.  返回装箱后的计算结果

  C:Scala代码优化

   ...............

四、 Spark SQL运行架构

          Catalyst就SparkSQL核心部分,性能的优劣影响整体的性能,由于发展时间短,虚线部分是以后版本要实现功能,实现部分是已经实现功能。
        Unresolved Logical Plan:未解析的逻辑执行计划

        Schema Catalog:元数据管理套用Unresolved Logical Plan生成Logical Plan

        Logical Plan:生成逻辑执行计划

        Optimized Logical Plan:对生生成的Logical Plan进行优化,生成物理逻计划
        Physical Plans:物理逻辑计划,可能是多个,根据Cost Model生成最佳的物理逻辑化

以上是“SparkSQL指的是什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯