文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Hive 内置的 Json 解析函数

2024-12-02 04:12

关注

背景

在大数据 ETL(Extract-Transfer-Load) 过程中,经常需要从不同的数据源来提取数据进行加工处理,比较常见的是从 Mysql 数据库来提取数据,而 Mysql 数据库中数据存储的比较常见方式是使用 json 串进行存储。

通过大数据加工处理出来的数据是需要具有可直观分析的特点,可从数据分析中挖掘出商业价值的。

因此在数据预处理层需要将 json 串进行“拍平”处理,所谓“拍平”是指将 json 中的 key 转换为表的列字段,其 key 对应的 value 值则为列字段对应的值。

“拍平”的处理行业内也可称为“行转列”处理,我举个例子你就能明白什么是行转列了。

举例:

user表字段如下:

现需要将 user 表中字段 detail_info 中的 json 串值,以每个 key 作为 user_detail_info 表的字段来进行存储。

实现的 user_detail_info 表字段如下:

从 user 表到 user_detail_info 表的转换,就是“行转列”的过程。

你是否会好奇,在 Hive 中这个过程是如何实现的呢?

下文会解答你的疑惑。

Hive内置的json解析函数:get_json_object

语法:

get_json_object(json_string, '$.column')

说明:

解析 json 的字符串 json_string, 返回 path 指定的内容。如果输入的 json 字符串无效,结果返回 NULL。

这个函数每次只能返回一个数据项。

举例:

test_data = '{"name": "zhangsan",
"age": 18,
"preference": "music"}'

查询sql语句:

select get_json_object(test_data,'$.preference');

解析结果:

如果需要同时解析 age, preference 这两个字段。

sql语句如下:

select get_json_object(test_data,'$.age'),get_json_object(test_data,'$.preference');

执行结果如下:

如果需要同时解析的字段很多,很显然使用这种方式写就比较麻烦了,这时候 json_tuple 这个函数是个更好的选择。

Hive内置的json解析函数:json_tuple

语法:

json_tuple(json_string, column1, column2, column3 ...)

说明:

解析 json 的字符串 json_string,可同时指定多个 json 数据中的 column,返回对应的 value。如果输入的 json 字符串无效,结果返回 NULL。

举例:

例如:test_table1 表的 data 字段存储的是以下 json 串信息,现在想要获取这个 json 串的每个 key 并将其对应的 value 值查询出来。

(1). 准备 test_table1 表 data 字段的 json 数据

data = '{
"name": "rocky",
"age": 20,
"prefer": "dance",
"height": 1.8,
"nation": "China"
}'

(2). sql查询语句

select t1.name,
t1.age,
t1.prefer,
t1.height,
t1.nation
from (select data
from test_table1
) t0
lateral view json_tuple(t0.data,
'name',
'age',
'prefer',
'height',
'nation'
) t1 as name,age,prefer,height,nation;

解析结果:

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯