其中如下问题比较突出:
- 数据可得性问题, 由于数据权属导致大量且结构化的业务数据极其难找, 或者需要花费大量精力
- 脏数据问题, 在实际生产过程中, 90%以上的精力被花费在数据清洗过程中。在实际的数据生产过程中各种技术问题、人为偏见问题、信息标注问题,都可能导致数据出错。
- 数据流转动速的问题, 在实验室中, 你很容易拿着两份数据来评估模型的准确性。但进入实际应用中,我们往往预测的是未来, 这个时候,现实数据能不能及时喂给模型就很重要了。
不充分的数据造成算法偏见, 比如以人脸来判断犯罪概率
目前的大数据和人工智能算法中仍然存在着大量的数据缺口,以及偏见, 就如搜索中的性别问题、外卖算法无法帮助骑手识别风险等等。
现实问题过于复杂, 所以AI的大规模应用, 必然要伴随整个社会数据使用生态的改良,数据安全在有序的状态下公平正义地运行。