Hive中的collect_set函数用于返回指定列的唯一值集合。其语法如下:
SELECT collect_set(column_name)
FROM table_name
WHERE conditions;
其中,column_name是要收集唯一值的列名,table_name是要查询的表名,conditions是查询条件。
例如,假设有一个表student,包含学生的姓名和年龄字段,我们可以使用collect_set函数来收集所有学生的唯一年龄值:
SELECT collect_set(age)
FROM student;
这将返回一个包含所有学生年龄的唯一值的集合。