每年年底,停下来思考一下机器学习(ML)的趋势总是很有趣的,这种趋势已经出现了惊人的增长,尤其是在工具,资源和信息可访问性方面。
作为PerceptiLabs视觉建模工具的开发人员,我们将始终关注这些趋势,并询问下一步将如何发展,因为我们将继续增强工具的功能。这样做意味着调查水晶球或黑匣子(取决于选择的工具),以了解ML的未来前景。在最近进行了这项练习之后,以下是我们对2021年ML的三大预测(倒计时)。
尖端模型的可用性
排名第三的是可用的尖端模型的增长。随着ML的广泛采用,我们看到了开放访问模型的平行趋势。一个促成因素是大型ML公司正在不断提高模型性能的标准。他们之所以能够做到这一点,是因为他们拥有庞大而全面的数据集,可以在专门的ML从业人员团队的支持下训练模型。
许多中小型公司和组织希望利用这些高性能模型,但可能无法从头开始构建它们。因此,许多人正在转向迁移学习,以便他们可以在经过大量培训的这些模型的基础上,甚至重新利用这些模型。相反,许多确实有资源开发此类模型的大型企业已经意识到,他们仍然可以从外部对其模型所做的贡献中受益。
学生,业余爱好者和其他尝试ML的团体也使用开源和公共模型,其中一些人使用或贡献于这些模型来促进他们的职业发展。
更好的ML支持工具
在2021年的顶级ML预测中排名第二的是为ML实践者提供的更全面的工具支持。
仅仅生成一个可以做出相当不错的预测的ML模型已不再足够。当今的机器学习从业者要求模型具有可解释性,需要理解为什么要进行预测,也就是说,如果愿意,可以进入众所周知的黑匣子,然后决定是否应将模型投入生产。这在企业中经常要根据社会因素(包括道德,社会公正和公平)对预测进行仔细检查的情况下尤其重要。
模型卡的使用已成为模型开发的强大工具,我们希望它们在2021年变得更加普遍。从本质上讲,这些卡(实际上更像是设计文档)正式描述了模型的各个方面。它们的内容可以包括:
- 详细概述:概述了模型的用途。
- 规格:层/神经网络,输入和输出的类型。
- 后勤:作者,日期,其他文档的链接,如何引用模型,许可证。
- 预期用途:适用用途,领域限制等。
- 限制和注意事项:速度/准确性约束,道德和隐私问题,潜在的偏见等。
- 培训:数据源,测试环境和设备等。
- 目标和实际绩效指标:诸如预期与实际准确性之类的指标。
有关模型卡的一些很好的示例,请从MediaPipe中查看此收藏集。
另一个关键工具是可视化。在设计,培训甚至审计过程中可视化模型的能力本身就是非常宝贵的。这就是PerceptiLabs的亮点,因为它为TensorFlow提供了GUI和可视化API。
这些方面补充了模型卡,因为团队成员可以根据模型卡上指定的内容不断评估模型。有关其他信息,请查看TensorFlow概述以及PerceptiLabs如何使其更容易。
在PerceptiLabs,我们还在寻求超越具有支持解释功能的可视化功能。不久,我们将添加新的库,这些库不仅使您可以查看正在使用的数据,还可以洞悉该数据的哪一部分(例如,图像的某些部分,CSV数据的某些列等)。具有最大的影响预测。
边缘机器学习
最后,在您一直等待的时刻,我们对2021年的ML预测(鼓声):边缘机器学习。
我们看到边缘推理的趋势正在增长,我们预计该细分市场将在2021年大幅增长。这有很多因素,包括物联网的增长以及对远程工作设备的更多依赖。但是,要对此趋势有所了解,最好将边缘推理与"面向云的ML"进行比较和对比,后者在面向企业的设备和消费类设备(例如Google Mini)中都可以找到。
支持云的ML可能会让人联想到可以访问互联网的微型设备的图像,这些设备会收集数据,将数据发送到云以进行推断,并且在某些情况下会在设备上接收数据(例如执行某些操作)。这样的部署对于许多情况(例如,对于检测欺诈的银行而言)是必要的,并且非常适合于可能不需要较长延迟的情况,需要第三方云托管的情况等。也就是说,5G的增长可能会使延迟成为过去。
但是,边缘设备正在迅速获得在边缘执行推理所需的处理能力。以Google的Coral为例,它具有板载张量处理单元(TPU),并且可以处理众多IoT用例(例如,分析图像和语音)。通过将此类技术封装在一个小巧的外形中,现在就可以进行推理,而无需Internet连接和云后端。此设置还通过将所有收集的数据保留在设备上来增加安全性,这一方面在设备上得到了进一步增强。
从技术角度来看,此类部署通常需要更小的ML模型,这些模型可以快速转移并适合有限的嵌入式设备存储。一种流行的解决方案是在模型中使用量化(降低数值精度)来减小模型的大小。当然,确定正确的量化数量必须与不可避免的准确性降低保持平衡。有关更多信息,请查看我们的珊瑚手语教程,该教程演示在PerceptiLabs中的模型导出过程中使用全整数量化以将权重从32位浮点数减少到8位定点值,以及如何将模型加载到Coral开发板上。
结论
2020年是唱片业的一年,但将被铭记为即使是最艰巨的挑战也要克服的时代。我们希望认为这不仅适用于全球性事件,而且还适用于ML工具,资源和信息的演变和民主化。
虽然我们的主题是2020年,但我们今年的主要预测之一是MLOps的增长。MLOps可以按照MLOps:仅适用于机器学习的"运维"中所述的不同级别采用。
总体而言,这是值得反思的一年,我们期待看到我们对ML的预测在新的一年中得以实现。