Flink SQL 知其所以然：Window TopN 操作-编程学习网

大家好，我是老羊，今天我们来学习 Flink SQL 中的 Window TopN 操作。

Window TopN 定义（支持 Streaming）：Window TopN 是一种特殊的 TopN，它的返回结果是每一个窗口内的 N 个最小值或者最大值。
应用场景：小伙伴萌会问了，我有了 TopN 为啥还需要 Window TopN 呢？还记得上文介绍 TopN 说道的 TopN 时会出现中间结果，从而出现回撤数据的嘛？Window TopN 不会出现回撤数据，因为 Window TopN 实现是在窗口结束时输出最终结果，不会产生中间结果。而且注意，因为是窗口上面的操作，Window TopN 在窗口结束时，会自动把 State 给清除。
SQL 语法标准：

SELECT [column_list]
FROM (
   SELECT [column_list],
     ROW_NUMBER() OVER (PARTITION BY window_start, window_end [, col_key1...]
       ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS rownum
   FROM table_name) -- windowing TVF
WHERE rownum <= N [AND conditions]

实际案例：取当前这一分钟的搜索关键词下的搜索热度前 10 名的词条数据。

输入表字段：

-- 字段名         备注
-- key              搜索关键词
-- name             搜索热度名称
-- search_cnt       热搜消费热度（比如 3000）
-- timestamp        消费词条时间戳
CREATE TABLE source_table (
    name BIGINT NOT NULL,
    search_cnt BIGINT NOT NULL,
    key BIGINT NOT NULL,
    row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)),
    WATERMARK FOR row_time AS row_time
) WITH (
  ...
);
-- 输出表字段：
-- 字段名         备注
-- key              搜索关键词
-- name             搜索热度名称
-- search_cnt       热搜消费热度（比如 3000）
-- window_start     窗口开始时间戳
-- window_end       窗口结束时间戳
CREATE TABLE sink_table (
    key BIGINT,
    name BIGINT,
    search_cnt BIGINT,
    window_start TIMESTAMP(3),
    window_end TIMESTAMP(3)
) WITH (
  ...
);
-- 处理 sql：
INSERT INTO sink_table
SELECT key, name, search_cnt, window_start, window_end
FROM (
   SELECT key, name, search_cnt, window_start, window_end, 
     ROW_NUMBER() OVER (PARTITION BY window_start, window_end, key
       ORDER BY search_cnt desc) AS rownum
   FROM (
      SELECT window_start, window_end, key, name, max(search_cnt) as search_cnt
      -- window tvf 写法
      FROM TABLE(TUMBLE(TABLE source_table, DESCRIPTOR(row_time), INTERVAL '1' MINUTES))
      GROUP BY window_start, window_end, key, name
   )
)
WHERE rownum <= 100

输出结果：

+I[关键词1, 词条1, 8670, 2021-1-28T22:34, 2021-1-28T22:35]
+I[关键词1, 词条2, 6928, 2021-1-28T22:34, 2021-1-28T22:35]
+I[关键词1, 词条3, 1735, 2021-1-28T22:34, 2021-1-28T22:35]
+I[关键词1, 词条4, 7287, 2021-1-28T22:34, 2021-1-28T22:35]
...

可以看到结果是符合预期的，其中没有回撤数据。

SQL 语义。

数据源：数据源即最新的词条下面的搜索词的搜索热度数据，消费到 Kafka 中数据后，将数据按照窗口聚合的 key 通过 hash 分发策略发送到下游窗口聚合算子。
窗口聚合算子：进行窗口聚合计算，随着时间的推进，将窗口聚合结果计算完成发往下游窗口排序算子。
窗口排序算子：这个算子其实也是一个窗口算子，只不过这个窗口算子为每个 Key 维护了一个 TopN 的榜单数据，接受到上游发送的窗口结果数据进行排序，随着时间的推进，窗口的结束，将排序的结果输出到下游数据汇算子。
数据汇：接收到上游的数据之后，然后输出到外部存储引擎中。

文章详情

Flink SQL 知其所以然：Window TopN 操作

软考中级精品资料免费领

相关文章

猜你喜欢

Flink SQL 知其所以然：Window TopN 操作

Flink SQL 知其所以然：TopN、Order By、Limit 操作

Flink SQL 知其所以然：Group 聚合操作

Flink SQL 知其所以然：Over 聚合操作

Flink SQL 知其所以然：SQL DDL！

Flink SQL知其所以然：Flink SQLTumble Window 的奇妙解析之路

Flink SQL 知其所以然：两万字详述 Join 操作

Flink SQL 知其所以然：Flink SQL 开发利器之 Zeppelin

Flink SQL 知其所以然：SQL 的时间语义！

Flink SQL 知其所以然：SQL 的时区问题！

Flink SQL 知其所以然：SQL 数据类型大全！

Flink SQL知其所以然：大家都用 Cumulate Window 计算累计指标啦

Flink SQL 知其所以然：Explain、Show、Load、Set 子句

Flink SQL 知其所以然：基础 DML SQL 执行语义！

Flink SQL 知其所以然：Deduplication去重以及如何获取最新状态操作

Flink SQL 知其所以然之流 join 很难嘛？？？（上）

Flink SQL 知其所以然之流 Join 很难嘛？？？（下）

Flink SQL 知其所以然：Table 与 DataStream 的转转转

Flink SQL 知其所以然之Flink SQL 开发企业级利器之 Dlink

Flink SQL 知其所以然：万字详述 Flink SQL 四种时间窗口语义！