吴恩达认为,对深度模型的训练应当从调整代码转向调整数据,通过调整影响训练结果的噪声数据(无意义数据),仅用少量优质的数据集即可完成模型更新,相较调整代码或直接提供海量数据的方式,这种方法更具针对性。
吴恩达2017年成立的Landing AI公司目前在为制造业产品检测方面提供计算机视觉工具,该工具能够对噪声数据进行快速标记,使客户通过更改数据标签自主完成模型的更新,不需要再对模型本身进行调整。
一、深度学习潜力强大,大数据训练集成主流
人工智能的目标是让机器像人类一样“思考”和“行动”,机器学习是是实现这一愿景的重要方法,深度学习则是机器学习的重要分支,随着2012年Hinton教授用机器学习方法在ImageNet图像识别比赛中一举夺魁,深度学习逐渐受到广泛关注,在许多领域替代了传统的机器学习方法,成为人工智能中的热门研究领域。
过去十年里,深度学习实现了飞速发展,深度学习模型向着越来越大的方向发展,以OpenAI的自然语言处理模型GPT系列模型为例,2018年,GPT-1的参数规模突破1亿,到2020年GPT-3问世时时,参数规模已经突破百亿,超大模型的不断涌现,显示了深度学习的发展潜力。
但是,吴恩达认为,虽然目前深度学习方法在许多面向消费者的公司里实现了广泛应用,但是这些公司往往拥有庞大的用户基础,能获得大型数据集进行模型训练,但对于许多不能获得大型数据集的行业,则需要将重点从提供大量数据转向提供优质数据。
二、从代码转向数据,用少量数据训练优质模型
过去十年中,训练深度学习模型的主流方法是下载数据集,然后专注于改进代码,但如果一个机器学习模型对于大多数数据集来说是正常的,仅在其中一个数据集中出现偏差,为了适应这个数据集改变整个模型架构的方法是低效的。
还有一种方法是从数据下手,这类方法被称为“Data-centric AI”(以数据为中心的人工智能),一般的方法是通过补充更多数据提升模型的准确性。对此,吴恩达表示,如果试图为所有情况收集更多数据,这个工作量将会很大,因此他致力开发出标记噪声数据(无意义数据)的工具,提供一种针对性的方法,为模型训练提供少量但优质的数据。
吴恩达说他一般采用的方法是数据增强或提高数据标签的一致性等,比如对一个存有一万张图片的数据集,其中30张同类图片有不同的数据标记时,他希望能够构建识别标记不一致的图片的工具,使研究人员能快速对其重新标记,而不是再搜集海量数据进行模型训练。
三、Landing AI提供数据标记工具,用户自主实现模型更新
2017年,吴恩达成立了Landing AI公司,为制造业公司提供产品检测的计算机视觉工具,为生产商的产品进行视觉检测。吴恩达在该公司的首页介绍道,用人眼发现电路板划痕超出了人眼观测能力的极限,但用AI进行识别的准确率就高得多。
Landing AI重点在于让客户能够自己训练机器学习模型,该公司主要为其提供相关工具,能在数据出现异常时进行数据标记,让公司自己就能实现模型的快速更新。
吴恩达表示,这不仅仅是制造业的问题,以医疗健康领域为例,每家医院的电子版健康记录都有自己的格式,期望每家医院的程序员开发不同的模型是不现实的,唯一的方法就是为客户提供工具,让他们能够构建适配的模型,Landing AI目前在计算机视觉领域推广这样的工具,其他AI领域业需要做这样的工作。
结语:深度学习方法或转向,数据求精不求多
长期以来,深度学习模型的更新与优化主要依赖对模型的调整,或直接补充更多数据,反复训练模型,提升模型的准确度。吴恩达则更推荐对少量噪声数据进行数据标记和更新,实现更有针对性的模型优化。
此前,吴恩达在推特上发起了“Data-centric AI”竞赛,使更多从业人员注意到通过数据进行模型优化的方法,越来越多的研究人员使用数据增强(data augmentation)、合成数据(synthetic data)等方法,实现更高效的模型训练。未来,数据优化是否会成为实现模型迭代的主流方法,值得期待。