深度学习也能不玩大数据？小企业训练大模型有新解-编程学习网

吴恩达认为，对深度模型的训练应当从调整代码转向调整数据，通过调整影响训练结果的噪声数据（无意义数据），仅用少量优质的数据集即可完成模型更新，相较调整代码或直接提供海量数据的方式，这种方法更具针对性。

吴恩达2017年成立的Landing AI公司目前在为制造业产品检测方面提供计算机视觉工具，该工具能够对噪声数据进行快速标记，使客户通过更改数据标签自主完成模型的更新，不需要再对模型本身进行调整。

一、深度学习潜力强大，大数据训练集成主流

人工智能的目标是让机器像人类一样“思考”和“行动”，机器学习是是实现这一愿景的重要方法，深度学习则是机器学习的重要分支，随着2012年Hinton教授用机器学习方法在ImageNet图像识别比赛中一举夺魁，深度学习逐渐受到广泛关注，在许多领域替代了传统的机器学习方法，成为人工智能中的热门研究领域。

过去十年里，深度学习实现了飞速发展，深度学习模型向着越来越大的方向发展，以OpenAI的自然语言处理模型GPT系列模型为例，2018年，GPT-1的参数规模突破1亿，到2020年GPT-3问世时时，参数规模已经突破百亿，超大模型的不断涌现，显示了深度学习的发展潜力。

但是，吴恩达认为，虽然目前深度学习方法在许多面向消费者的公司里实现了广泛应用，但是这些公司往往拥有庞大的用户基础，能获得大型数据集进行模型训练，但对于许多不能获得大型数据集的行业，则需要将重点从提供大量数据转向提供优质数据。

二、从代码转向数据，用少量数据训练优质模型

过去十年中，训练深度学习模型的主流方法是下载数据集，然后专注于改进代码，但如果一个机器学习模型对于大多数数据集来说是正常的，仅在其中一个数据集中出现偏差，为了适应这个数据集改变整个模型架构的方法是低效的。

还有一种方法是从数据下手，这类方法被称为“Data-centric AI”（以数据为中心的人工智能），一般的方法是通过补充更多数据提升模型的准确性。对此，吴恩达表示，如果试图为所有情况收集更多数据，这个工作量将会很大，因此他致力开发出标记噪声数据（无意义数据）的工具，提供一种针对性的方法，为模型训练提供少量但优质的数据。

吴恩达说他一般采用的方法是数据增强或提高数据标签的一致性等，比如对一个存有一万张图片的数据集，其中30张同类图片有不同的数据标记时，他希望能够构建识别标记不一致的图片的工具，使研究人员能快速对其重新标记，而不是再搜集海量数据进行模型训练。

三、Landing AI提供数据标记工具，用户自主实现模型更新

2017年，吴恩达成立了Landing AI公司，为制造业公司提供产品检测的计算机视觉工具，为生产商的产品进行视觉检测。吴恩达在该公司的首页介绍道，用人眼发现电路板划痕超出了人眼观测能力的极限，但用AI进行识别的准确率就高得多。

Landing AI重点在于让客户能够自己训练机器学习模型，该公司主要为其提供相关工具，能在数据出现异常时进行数据标记，让公司自己就能实现模型的快速更新。

吴恩达表示，这不仅仅是制造业的问题，以医疗健康领域为例，每家医院的电子版健康记录都有自己的格式，期望每家医院的程序员开发不同的模型是不现实的，唯一的方法就是为客户提供工具，让他们能够构建适配的模型，Landing AI目前在计算机视觉领域推广这样的工具，其他AI领域业需要做这样的工作。

结语：深度学习方法或转向，数据求精不求多

长期以来，深度学习模型的更新与优化主要依赖对模型的调整，或直接补充更多数据，反复训练模型，提升模型的准确度。吴恩达则更推荐对少量噪声数据进行数据标记和更新，实现更有针对性的模型优化。

此前，吴恩达在推特上发起了“Data-centric AI”竞赛，使更多从业人员注意到通过数据进行模型优化的方法，越来越多的研究人员使用数据增强（data augmentation）、合成数据（synthetic data）等方法，实现更高效的模型训练。未来，数据优化是否会成为实现模型迭代的主流方法，值得期待。

文章详情

深度学习也能不玩大数据？小企业训练大模型有新解

一、深度学习潜力强大，大数据训练集成主流

二、从代码转向数据，用少量数据训练优质模型

三、Landing AI提供数据标记工具，用户自主实现模型更新

结语：深度学习方法或转向，数据求精不求多

软考中级精品资料免费领

相关文章

猜你喜欢

深度学习也能不玩大数据？小企业训练大模型有新解