文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

广告流量反作弊风控中的模型应用

2024-11-30 18:33

关注

一、广告反作弊简介

 1.1  广告流量反作弊定义

广告流量作弊,即媒体通过多种作弊手段,获取广告主的利益。

作弊流量主要来自于:

1.2  常见的作弊行为

1.3  常见作弊类型

按照广告投放流程顺序

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中应用背景

智能风控,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。

常见的无监督算法:

常见有监督算法:

2.2 广告流量模型算法体系

 

体系分四层:

三、算法模型应用案例

3.1 素材交互诱导感知

背景:广告素材中添加虚拟的X关闭按钮,导致用户关闭广告时点击的虚假的X按钮,导致无效的点击流量,同时影响用户体验;左图是投放的原始素材,右侧是用户点击的坐标绘制热力图,虚拟X导致用户关闭广告时产生无效的点击流量。

模型识别感知:

1、密度聚类(DBSCAN):

先定义几个概念



2、应用算法对诱导误触广告感知:

①首先按照分辨率和广告位,对点击数据进行分组,筛选过滤掉量级较小的群组; 

②对每个群组,使用密度聚类算法进行聚类,设置邻域密度阈值为10,半径ε=5,进行聚类训练;

③对每个群组,密度聚类后,过滤掉簇面积较小的簇,具体训练代码如下: 

④效果监控和打击,针对挖掘的簇,关联点击后向指标,针对异常转化指标广告位,进行复检,并对复检有问题广告位进行处置。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建立作弊点击识别模型,提升反作弊审计覆盖能力,发现高纬度隐藏的作弊行为、有效补充点击场景的策略反作弊审计。

3.2.2 建设流程


(1)特征建设

基于token粒度,计算事件发生前,设备、ip、媒体、广告位的等粒度特征。

频率特征:在过去1分钟,5分钟,30分钟、1小时、1天,7天等时间窗口的曝光,点击、安装行为特征、即对应的均值、方差、离散度等特征;

基本属性特征:媒体类型,广告类型,设备合法性、ip类型,网络类型,设备价值等级等。

   

 2、模型训练和效果

① 样本选择:

② 特征预处理:

③ 模型训练:

采用随机森林算法,对点击广告作弊行为进行分类,随机森林有较多优势,比如:

(1)能处理很高维度的数据并且不用做特征选择;

(2)对泛化误差(Generalization Error)使用的是无偏估计,模型泛化能力强;

(3)训练速度快,容易做成并行化方法(训练时树与树之间是相互独立的); 

(4)抗过拟合能力比较强;

超参数搜索优化,使用ParamGridBuilder,配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜索优化最优超参数。

④ 模型稳定性监控:

模型上线后,如果特征随着时间迁移,推理时间的特征与训练时间的特征分布存在变动差异,需要对模型稳定性监控并迭代更新;

首先对当前版本训练样本进行存档,计算推理时间的数据和训练时间数据的对应每个特征的PSI值,计算的PSI值(Population Stability Index)每天可视化监控告警。

⑤ 模型可解释性监控: 

模型上线后,为了更直观的定位命中模型风险的原因,对推理数据进行可解释性监控;即对每条数据,计算其对预测标签的影响程度;

采用Shapley值(Shapley Additive explanation)解释特征如何影响模型的输出,计算shap值输出到可视化平台,日常运营分析使用。

3.3 点击序列异常检测

3.3.1 背景

通过用户小时点击量序列,挖掘恶意行为对应的设备,挖掘检测远离占绝大多数正常行为外的异常模式用户群体、比如只有凌晨0~6点有低频的其他时间没点击行为的异常群体、或者每小时均衡点击的行为等异常模式用户等。

3.3.2 建设流程

(1)特征建设

以设备作为用户,统计过去1/7/30天,每小时的点击量,形成1*24小时、7*24小时、30*24小时点击量序列,构建的特征具备时间尺度上特征完备性和每个特征数据连续条件,适用于异常检测算法。

(2)模型选择

孤立森林离群点检测算法,算法基于两个理论假设,即异常数据占总样本量的比例很小,异常点的特征值与正常点的差异很大。

检测分布稀疏且离密度高的群体较远的点,比如下图可以直观的看到,相对更异常Xo的只需要4次切割就从整体中被分离出来,即被‘孤立’了,而更加正常的Xi点经过了11次分割才从整体中分离出来。

(3)模型训练

使用IsolationForest算法,为了更好覆盖,针对多种粒度流量进行异常检测训练。

①全平台流量,训练异常感知模型,设置异常样本比例cnotallow=0.05;

②每类媒体类型的流量,训练异常感知模型,设置异常样本比例cnotallow=0.1;

③每种广告位类型流量,训练异常感知模型,设置异常样本比例cnotallow=0.1。

(4)感知监控

案例① 

2022年XX月XX号, 7*24小时点击量异常检测, 可疑恶意用户A ,过去7天大部分时间,每小时均衡产生较多点击记录远超正常用户。

 (备注:features中每个点代表用户一个小时的点击量)  

案例②

2022年XX月XX号,1*24小时点击量序列异常检测,可疑恶意用户B, 基本只在凌晨产生点击,其他白天基本无点击行为。


四、总结

在流量反作弊领域,随着对抗手段的升级,算法模型能更好发现和挖掘黑产的隐藏的作弊模式;在广告流量反作弊领域,我们使用有监督和无监督等算法模型,从作弊流量识别,异常流量感知方面做了探索挖掘应用,有效提升识别能力,挖掘发现较复杂的异常行为模式。未来算法模型在机器流量识别上更多探索实践应用。

来源:vivo互联网技术内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯