文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

利用基于 ML 的异常检测进行 4G 网络优化

2024-12-13 16:05

关注

通过异常检测改进 4G 网络流量分配

前几代蜂窝网络在网络资源分配方面效率不高,始终为所有地区提供均匀覆盖。例如,您可以设想一个拥有大城市、小镇或绵延数英里的森林的广阔区域。所有这些地区都获得了相同数量的覆盖——尽管城镇需要更多的互联网流量,而森林需要的很少。

考虑到现代 4G 网络的流量更高,蜂窝提供商能够通过优化频率资源的利用来实现可观的节能效果并改善客户体验。

基于机器学习的异常检测可以预测网络各个部分的流量需求,帮助运营商更合理地分配流量。本文基于我们对来自公共领域的信息的分析,并实施了 ML 算法,以一种可能的方法有效地解决了这个问题。

这个特定问题有多种解决方案。最有趣的包括:

数据概览

该研究是使用从实际 LTE 网络中提取的信息完成的。该数据集总共包含 14 个特征,其中 12 个是数值特征,2 个是分类特征。我们有将近 40,000 行没有缺失值(空行)的数据记录。数据分析团队将信息分为两个标记类别:

标签是根据网络特定部分的流量手动执行的。但是,可以选择利用神经网络进行自动数据标记。查找此功能的 Amazon SageMaker Ground Truth,或来自 Google AI 平台的数据标签服务。

数据分析结果

对标记数据的分析向我们表明,整个数据集是不平衡的。我们有 26,271 个正常值(0 级)和 10,183 个(1 级)异常值:

根据数据集,建立皮尔逊相关矩阵:

4G 网络利用率特征相关图 (Pearson)

如您所见,大量特征高度相关。这种相关性使我们能够了解数据集中的不同属性是如何相互连接的。它作为不同建模技术的基本量,有时可以帮助我们发现因果关系并根据一个属性预测另一个属性。

这次我们有完全正面和负面的属性,这可能会导致多重共线性问题,从而以不好的方式影响模型的性能。当可以从任何其他变量高度准确地线性预测多元回归模型中的一个预测变量时,就会发生这种情况。

对我们来说幸运的是,决策树和提升树能够通过在分裂时选择一个完全相关的特征来解决这个问题。当使用逻辑回归或线性回归等其他模型时,请记住它们可能会遇到此问题并且需要在训练前进行额外调整。处理多重共线性的其他方法包括主成分分析 (PCA) 和删除完全相关的特征。对我们来说最好的选择是使用基于树的算法,因为它们不需要任何调整来处理这个问题。

基本准确率是衡量分类的关键指标之一,它是正确预测与数据集中样本总数的比率。如前所述,我们的案例中有不平衡的类别,这意味着基本准确度可能会为我们提供不正确的结果,因为高指标没有显示少数类别的预测能力。

我们的准确率可以接近 100%,但在特定类别中的预测能力仍然很低,因为异常是数据集中最罕见的。我们决定不使用准确性,而是使用 F1 指标,即精度和召回率的调和平均值,这对于不平衡的分类情况非常有用。F1 指标涵盖从 0 到 1 的范围,其中 0 是完全失败,1 是完美分类。

样本可以按四种方式排序:

以下是不平衡类别的指标:

真阳性率、召回率或灵敏度

误报率或失败

精确

真阴性率或特异性

F1-score指标 的公式为:

我们选择的算法

DecisionTreeClassifier 对我们来说是一个很好的起点,因为我们在测试选择上获得了 94% 的准确率,而无需任何额外的调整。为了使我们的结果更好,我们转向了 BaggingClassifier,它也是一种树算法,根据 F1 分数指标,它为我们提供了 96% 的准确率。我们还尝试了 RandomForestClassifier 和GradientBoostingClassifier 算法,它们的准确率分别为 91% 和 93%。

特征工程步骤

由于基于树的算法,我们取得了很好的结果,但仍有一些增长空间,因此我们决定进一步提高准确性。在处理数据时,我们添加了时间特征(分钟和小时),增加了从“时间”参数中提取一天中部分时间的可能性,并尝试了时滞特征——这些举措并没有太大帮助。然而,有助于改进模型结果的是使用允许特征转换和数据平衡的上采样技术。

参数调整步骤

所有开箱即用的算法都显示出超过 90% 的结果,这非常好,但是使用 GridSearch 技术,可以进一步改进它们。在四种算法中,GridSearch 对GradientBoostingClassifier 最有效,并帮助实现了惊人的 99% 的准确率,从而完成了我们最初的目标。

结论

我们在本文中强调的问题在所有提供 3G 或 4G 覆盖的移动互联网提供商中非常普遍,可以加以解决以改善用户体验。在这种情况下,“异常”被视为互联网流量的浪费。机器学习模型可以根据输入数据决定资源分配的有效性。所描述的使用 GridSearch 调优的GradientBoostingClassifier 的用法可以帮助公司评估流量分配的效率,并建议他们需要更改哪些参数以提供最佳的用户体验。

无效的流量利用并不是数据科学在电信行业可以解决的唯一问题。合适的开发团队也可以提供欺诈检测、预测分析、客户细分、客户流失预防和生命周期价值预测等解决方案。

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯