文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

你对AI未来的数据战略是什么?

2024-11-30 02:26

关注
随着企业变得更加数据驱动,古老的计算谚语垃圾输入,垃圾输出(GIGO)从未像现在这样正确。将AI应用于许多业务流程只会加速确保所用数据的准确性和及时性的需要,无论是内部生成的数据还是外部来源的数据。

不良数据的代价

Gartner估计,企业因使用质量不佳的数据而平均每年损失1290万美元。IBM计算出,糟糕的数据每年给美国经济造成的损失超过3万亿美元,其中大部分费用涉及企业内部在数据通过和跨部门传递时检查和更正数据的工作。IBM认为,知识工作者有一半的时间被浪费在这些活动上。

除了这些内部成本外,客户、监管机构和供应商之间的声誉损害也是一个更大的问题,这些问题来自基于不良或误导性数据而行为不当的组织。《体育画报》及其CEO最近发现了这一点,当时该杂志被披露发表了由虚假作者撰写的文章,并使用AI生成的图像。虽然CEO丢掉了工作,但母公司Arena Group的市值损失了20%。也有几起备受瞩目的律师事务所通过提交虚假的AI生成的案件作为法律纠纷中优先地位的证据而陷入困境。

AI黑匣子

尽管成本高昂,但检查和更正企业决策和业务运营中使用的数据已成为大多数企业的既定做法,然而,考虑到幻觉的发生率越来越高,了解一些大型语言模型(LLM)是如何训练的,以及关于哪些数据和输出是否可信,则是另一回事。例如,在澳大利亚,一位当选的地区市长威胁要起诉OpenAI,因为该公司的ChatGPT虚假地声称,他曾因贿赂而入狱,而事实上,他一直是犯罪活动的举报人。

对LLM进行可信数据培训,并采用迭代查询、检索增强生成或推理等方法,是显著减少幻觉危险的好方法,但不能保证它们不会发生。

关于合成数据的培训

随着企业通过部署AI系统寻求竞争优势,回报可能会流向那些能够获得足够和相关的专有数据来训练他们的模型的人,但是,无法获得这些数据的大多数企业怎么办?研究人员预测,如果目前的趋势继续下去,用于训练LLM模型的高质量文本数据将在2026年前耗尽。

解决这个迫在眉睫的问题的一个办法是增加对合成训练数据的使用。Gartner估计,到2030年,AI模型中合成数据将超过真实数据的使用,然而,回到GIGO的警告,过度依赖合成数据可能会加速产出不准确和决策失误的危险。此类数据只能与创建它的模型一样好。数据混乱可能会带来更长期的危险,因为AI模型是在不符合标准的合成数据上进行训练的,这些数据产生的输出然后被反馈到后来的模型中。

谨慎行事

AI精灵已经从瓶子里出来了,虽然一些过于热情的技术供应商和咨询公司承诺的广泛的数字革命需要更多时间才能发生,但AI将继续以我们尚无法想象的方式改变商业,然而,访问企业所需规模的可靠和可信数据已经成为CIO和其他企业领导人必须在为时已晚之前找到补救方法的瓶颈。

来源:企业网D1Net内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯