文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Flink 计算 Pv 和 Uv 的通用方法

2024-12-02 18:19

关注

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。

UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。

计算网站App的实时pv和uv,是很常见的统计需求,这里提供通用的计算方法,不同的业务需求只需要小改即可拿来即用。

需求

利用Flink实时统计,从0点到当前的pv、uv。

一、需求分析

从Kafka发送过来的数据含有:时间戳、时间、维度、用户id,需要从不同维度统计从0点到当前时间的pv和uv,第二天0点重新开始计数第二天的。

二、技术方案

Kafka数据可能会有延迟乱序,这里引入watermark;

通过keyBy分流进不同的滚动window,每个窗口内计算pv、uv;

由于需要保存一天的状态,process里面使用ValueState保存pv、uv;

使用BitMap类型ValueState,占内存很小,引入支持bitmap的依赖;

保存状态需要设置ttl过期时间,第二天把第一天的过期,避免内存占用过大。

三、数据准备

这里假设是用户订单数据,数据格式如下:

  1. {"time":"2021-10-31 22:00:01","timestamp":"1635228001","product":"苹果手机","uid":255420} 
  2. {"time":"2021-10-31 22:00:02","timestamp":"1635228001","product":"MacBook Pro","uid":255421} 

四、代码实现

整个工程代码截图如下(抹去了一些不方便公开的信息):

pvuv-project

1. 环境

kafka:1.0.0;

Flink:1.11.0;

2. 发送测试数据

首先发送数据到kafka测试集群,maven依赖:

  1.  
  2.     org.apache.kafka 
  3.     kafka-clients 
  4.     2.4.1 
  5.  

2.4.1

 

发送代码:

  1. import com.alibaba.fastjson.JSON; 
  2. import com.alibaba.fastjson.JSONObject; 
  3. import jodd.util.ThreadUtil; 
  4. import org.apache.commons.lang3.StringUtils; 
  5. import org.junit.Test; 
  6.  
  7. import java.io.*; 
  8.  
  9. public class SendDataToKafka { 
  10.  
  11.     @Test 
  12.     public void sendData() throws IOException { 
  13.         String inpath = "E:\\我的文件\\click.txt"
  14.         String topic = "click_test"
  15.         int cnt = 0; 
  16.         String line; 
  17.         InputStream inputStream = new FileInputStream(inpath); 
  18.         Reader reader = new InputStreamReader(inputStream); 
  19.         LineNumberReader lnr = new LineNumberReader(reader); 
  20.         while ((line = lnr.readLine()) != null) { 
  21.             // 这里的KafkaUtil是个生产者、消费者工具类,可以自行实现 
  22.             KafkaUtil.sendDataToKafka(topic, String.valueOf(cnt), line); 
  23.             cnt = cnt + 1; 
  24.             ThreadUtil.sleep(100); 
  25.         } 
  26.     } 

3. 主要程序

先定义个pojo:

  1. @NoArgsConstructor 
  2. @AllArgsConstructor 
  3. @Data 
  4. @ToString 
  5. public class UserClickModel { 
  6.     private String date
  7.     private String product; 
  8.     private int uid; 
  9.     private int pv; 
  10.     private int uv; 

接着就是使用Flink消费kafka,指定Watermark,通过KeyBy分流,进入滚动窗口函数通过状态保存pv和uv。

  1. public class UserClickMain { 
  2.  
  3.     private static final Map config = Configuration.initConfig("commons.xml"); 
  4.  
  5.     public static void main(String[] args) throws Exception { 
  6.  
  7.         // 初始化环境,配置相关属性 
  8.         StreamExecutionEnvironment senv = StreamExecutionEnvironment.getExecutionEnvironment(); 
  9.         senv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); 
  10.         senv.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE); 
  11.         senv.setStateBackend(new FsStateBackend("hdfs://bigdata/flink/checkpoints/userClick")); 
  12.  
  13.         // 读取kafka 
  14.         Properties kafkaProps = new Properties(); 
  15.         kafkaProps.setProperty("bootstrap.servers", config.get("kafka-ipport")); 
  16.         kafkaProps.setProperty("group.id", config.get("kafka-groupid")); 
  17.         // kafkaProps.setProperty("auto.offset.reset""earliest"); 
  18.  
  19.         // watrmark 允许数据延迟时间 
  20.         long maxOutOfOrderness = 5 * 1000L; 
  21.         SingleOutputStreamOperator dataStream = senv.addSource( 
  22.                 new FlinkKafkaConsumer<>( 
  23.                         config.get("kafka-topic"), 
  24.                         new SimpleStringSchema(), 
  25.                         kafkaProps 
  26.                 )) 
  27.                 //设置watermark 
  28.                 .assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofMillis(maxOutOfOrderness)) 
  29.                         .withTimestampAssigner((element, recordTimestamp) -> { 
  30.                             // 时间戳须为毫秒 
  31.                             return Long.valueOf(JSON.parseObject(element).getString("timestamp")) * 1000; 
  32.                         })).map(new FCClickMapFunction()).returns(TypeInformation.of(new TypeHint() { 
  33.                 })); 
  34.  
  35.         // 按照 (date, product) 分组 
  36.         dataStream.keyBy(new KeySelector>() { 
  37.             @Override 
  38.             public Tuple2 getKey(UserClickModel value) throws Exception { 
  39.                 return Tuple2.of(value.getDate(), value.getProduct()); 
  40.             } 
  41.         }) 
  42.                 // 一天为窗口,指定时间起点比时间戳时间早8个小时 
  43.                 .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))) 
  44.                 // 10s触发一次计算,更新统计结果 
  45.                 .trigger(ContinuousEventTimeTrigger.of(Time.seconds(10))) 
  46.                 // 计算pv uv 
  47.                 .process(new MyProcessWindowFunctionBitMap()) 
  48.                 // 保存结果到mysql 
  49.                 .addSink(new FCClickSinkFunction()); 
  50.  
  51.         senv.execute(UserClickMain.class.getSimpleName()); 
  52.     } 

代码都是一些常规代码,但是还是有几点需要注意的。

注意

设置watermark,flink1.11中使用WatermarkStrategy,老的已经废弃了;

我的数据里面时间戳是秒,需要乘以1000,flink提取时间字段,必须为毫秒;

.window只传入一个参数,表明是滚动窗口,TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))这里指定了窗口的大小为一天,由于中国北京时间是东8区,比国际时间早8个小时,需要引入offset,可以自行进入该方法源码查看英文注释。

Rather than that,if you are living in somewhere which is not using UTC±00:00 time,

* such as China which is using UTC+08:00,and you want a time window with size of one day,

* and window begins at every 00:00:00 of local time,you may use {@code of(Time.days(1),Time.hours(-8))}.

* The parameter of offset is {@code Time.hours(-8))} since UTC+08:00 is 8 hours earlier than UTC time.

一天大小的窗口,根据watermark机制一天触发计算一次,显然是不合理的,需要用trigger函数指定触发间隔为10s一次,这样我们的pv和uv就是10s更新一次结果。

4. 关键代码,计算uv

由于这里用户id刚好是数字,可以使用bitmap去重,简单原理是:把 user_id 作为 bit 的偏移量 offset,设置为 1 表示有访问,使用 1 MB的空间就可以存放 800 多万用户的一天访问计数情况。

redis是自带bit数据结构的,不过为了尽量少依赖外部存储媒介,这里自己实现bit,引入相应maven依赖即可:

  1.  
  2.     org.roaringbitmap 
  3.     RoaringBitmap 
  4.     0.8.0 
  5.  

 

计算pv、uv的代码其实都是通用的,可以根据自己的实际业务情况快速修改的:

  1. public class MyProcessWindowFunctionBitMap extends ProcessWindowFunction, TimeWindow> { 
  2.  
  3.     private transient ValueState<Integer> pvState; 
  4.     private transient ValueState bitMapState; 
  5.  
  6.     @Override 
  7.     public void open(Configuration parameters) throws Exception { 
  8.         super.open(parameters); 
  9.         ValueStateDescriptor<Integer> pvStateDescriptor = new ValueStateDescriptor<>("pv"Integer.class); 
  10.         ValueStateDescriptor bitMapStateDescriptor = new ValueStateDescriptor("bitMap" 
  11.                 , TypeInformation.of(new TypeHint() {})); 
  12.  
  13.         // 过期状态清除 
  14.         StateTtlConfig stateTtlConfig = StateTtlConfig 
  15.                 .newBuilder(Time.days(1)) 
  16.                 .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) 
  17.                 .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) 
  18.                 .build(); 
  19.         // 开启ttl 
  20.         pvStateDescriptor.enableTimeToLive(stateTtlConfig); 
  21.         bitMapStateDescriptor.enableTimeToLive(stateTtlConfig); 
  22.  
  23.         pvState = this.getRuntimeContext().getState(pvStateDescriptor); 
  24.         bitMapState = this.getRuntimeContext().getState(bitMapStateDescriptor); 
  25.     } 
  26.  
  27.     @Override 
  28.     public void process(Tuple2 key, Context context, Iterable elements, Collector out) throws Exception { 
  29.  
  30.         // 当前状态的pv uv 
  31.         Integer pv = pvState.value(); 
  32.         Roaring64NavigableMap bitMap = bitMapState.value(); 
  33.         if(bitMap == null){ 
  34.             bitMap = new Roaring64NavigableMap(); 
  35.             pv = 0; 
  36.         } 
  37.  
  38.         Iterator iterator = elements.iterator(); 
  39.         while (iterator.hasNext()){ 
  40.             pv = pv + 1; 
  41.             int uid = iterator.next().getUid(); 
  42.             //如果userId可以转成long 
  43.             bitMap.add(uid); 
  44.         } 
  45.  
  46.         // 更新pv 
  47.         pvState.update(pv); 
  48.  
  49.         UserClickModel UserClickModel = new UserClickModel(); 
  50.         UserClickModel.setDate(key.f0); 
  51.         UserClickModel.setProduct(key.f1); 
  52.         UserClickModel.setPv(pv); 
  53.         UserClickModel.setUv(bitMap.getIntCardinality()); 
  54.  
  55.         out.collect(UserClickModel); 
  56.     } 

注意

由于计算uv第二天的时候,就不需要第一天数据了,要及时清理内存中前一天的状态,通过ttl机制过期;

最终结果保存到mysql里面,如果数据结果分类聚合太多,要注意mysql压力,这块可以自行优化;

五、其它方法

除了使用bitmap去重外,还可以使用Flink SQL,编码更简洁,还可以借助外面的媒介Redis去重:

 

具体思路是,计算pv、uv都塞入redis里面,然后再获取值保存统计结果,也是比较常用的。

 

来源:大数据技术派内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯