你对AI未来的数据战略是什么？-编程学习网

随着企业变得更加数据驱动，古老的计算谚语垃圾输入，垃圾输出(GIGO)从未像现在这样正确。将AI应用于许多业务流程只会加速确保所用数据的准确性和及时性的需要，无论是内部生成的数据还是外部来源的数据。

不良数据的代价

Gartner估计，企业因使用质量不佳的数据而平均每年损失1290万美元。IBM计算出，糟糕的数据每年给美国经济造成的损失超过3万亿美元，其中大部分费用涉及企业内部在数据通过和跨部门传递时检查和更正数据的工作。IBM认为，知识工作者有一半的时间被浪费在这些活动上。

除了这些内部成本外，客户、监管机构和供应商之间的声誉损害也是一个更大的问题，这些问题来自基于不良或误导性数据而行为不当的组织。《体育画报》及其CEO最近发现了这一点，当时该杂志被披露发表了由虚假作者撰写的文章，并使用AI生成的图像。虽然CEO丢掉了工作，但母公司Arena Group的市值损失了20%。也有几起备受瞩目的律师事务所通过提交虚假的AI生成的案件作为法律纠纷中优先地位的证据而陷入困境。

AI黑匣子

尽管成本高昂，但检查和更正企业决策和业务运营中使用的数据已成为大多数企业的既定做法，然而，考虑到幻觉的发生率越来越高，了解一些大型语言模型(LLM)是如何训练的，以及关于哪些数据和输出是否可信，则是另一回事。例如，在澳大利亚，一位当选的地区市长威胁要起诉OpenAI，因为该公司的ChatGPT虚假地声称，他曾因贿赂而入狱，而事实上，他一直是犯罪活动的举报人。

对LLM进行可信数据培训，并采用迭代查询、检索增强生成或推理等方法，是显著减少幻觉危险的好方法，但不能保证它们不会发生。

关于合成数据的培训

随着企业通过部署AI系统寻求竞争优势，回报可能会流向那些能够获得足够和相关的专有数据来训练他们的模型的人，但是，无法获得这些数据的大多数企业怎么办?研究人员预测，如果目前的趋势继续下去，用于训练LLM模型的高质量文本数据将在2026年前耗尽。

解决这个迫在眉睫的问题的一个办法是增加对合成训练数据的使用。Gartner估计，到2030年，AI模型中合成数据将超过真实数据的使用，然而，回到GIGO的警告，过度依赖合成数据可能会加速产出不准确和决策失误的危险。此类数据只能与创建它的模型一样好。数据混乱可能会带来更长期的危险，因为AI模型是在不符合标准的合成数据上进行训练的，这些数据产生的输出然后被反馈到后来的模型中。

谨慎行事

AI精灵已经从瓶子里出来了，虽然一些过于热情的技术供应商和咨询公司承诺的广泛的数字革命需要更多时间才能发生，但AI将继续以我们尚无法想象的方式改变商业，然而，访问企业所需规模的可靠和可信数据已经成为CIO和其他企业领导人必须在为时已晚之前找到补救方法的瓶颈。

文章详情

你对AI未来的数据战略是什么？

不良数据的代价

AI黑匣子

关于合成数据的培训

谨慎行事

软考中级精品资料免费领

相关文章

猜你喜欢

你对AI未来的数据战略是什么？

经得起未来考验的大数据战略

数据库备份的战略家：规划数据的未来

数据中心未来：智算中心能否应对AI时代的挑战？

情感AI：为什么它是数字医疗的未来？

为什么数据中心是游戏的未来

未来AI发展的核心钥匙是什么？

面向未来的数据中心是什么样的?

数据战略：采用云的正确方法是什么？

为什么人的参与对AI的未来至关重要？

TIDB，面向未来的数据库到底是什么？

数据库连接池管理的未来趋势，助力您的应用应对未来挑战

什么是大数据战略以及如何构建

为什么数据中心是游戏行业的未来？

营销中合成数据的兴起：市场研究和战略决策的未来

破解AI带来的数据存储挑战，西部数据是如何做的？

为什么闪存是下一代数据中心的未来

光学数据中心：为什么它是未来数据中心的需要？

你觉得未来科技发展的趋势是什么?

Python、npm、http和大数据：未来的技术趋势是什么？