发现或使用过生成式人工智能模型(如ChatGPT)的用户,已经有效地见证了成熟的数据和人工智能用例是如何从过度炒作转变为必不可少的工具。然而,人们在大数据之旅中遇到的同样的障碍仍然存在,因此首先要了解如何管理大量数据,并利用它们更好地做出决策。
大数据为企业提供了许多优势,例如提高业务效率和预测未来的业务结果。但要想走在创新的前沿,科技领导者必须消除普遍存在的误解,拥抱新兴趋势。
消除对大数据误解
关于大数据的许多常见误解依然存在。那么,需要消除的最主要的误解是什么?利用大数据可以保证更好的决策。虽然大数据项目旨在从给定的数据点中发现一些关系和模式,但最终,成功的大数据项目取决于利益相关者如何解释这些关系和模式。
人们也很容易忽略输入决策系统或算法的偏差或错误数据。在最好的情况下,这些偏见可能会使决策系统表现不佳;而在最坏的情况下,偏见可能会完全而危险地误导决策。与突破性发展并行的是,在过去的20年,人们也看到无数的项目成为糟糕规划和误解数据、问题或领域的牺牲品。
新的数据计划伴随着这些项目将取代数据仓库工作的假设而出现。大数据平台不应单独使用,而应作为传统数据管理系统的补充。结构化数据和可预测的工作负载将始终彼此协同工作。如果没有数据、人员和系统来验证黑盒算法,那么这些算法在使用或滥用时将继续造成严重破坏。这些问题将引发一系列围绕更负责任的人工智能以及不可避免的监管的对话。
大数据的四大趋势
随着大数据变得无处不在,它将继续以四种主要方式发展:元数据驱动的数据结构和图表的使用增加,AutoML机器学习的民主化,生成式人工智能的大规模采用和颠覆,以及研发预算的减少。
(1)元数据驱动的数据结构
元数据驱动的数据结构用于连接不同的数据工具集合,这些工具具有极大的灵活性、用于建模的基础设施和更大的数据集,可以驱动真正的洞察。提高数据管理的敏捷性应该是所有组织的优先事项,尤其是那些使用大数据为决策提供信息的组织。当与元数据或“场景中的数据”交互时,数据结构允许集成不同的数据湖,并从正式结构化的数据架构结构中提取知识图。数据结构侦听、学习元数据并对其进行操作,从而创建一个更加自主和用户友好的数据覆盖系统。
根据Gartner公司发布的一份报告,数据结构中的主动元数据辅助自动化功能将会减少三分之一的人力,同时将数据利用率提高四倍。部署这种数据结构方法的主要目标是通过增加对场景化信息的访问和理解,为大数据提供更多价值。
(2)民主化机器学习
对于那些使用大数据的人来说,进行广泛开发的机会是利用AutoML使机器学习大众化。AutoML是一类机器学习算法,它有助于自动化机器学习模型的设计和训练。由于其简化的方法和流程,AutoML扩大了大数据和机器学习的使用,使其更适合用户使用。使用AutoML的目标是构建用户能够创建自己的机器学习模型的算法,而不是需要人工输入未来的机器学习模型。
在现实中,观察到越来越多的企业使用AutoML来授权具有缺乏数据科学专业知识的员工来构建健壮的模型。与生成式人工智能一样,自动人工智能在应用于正确的问题时是一个令人难以置信的工具,但如果在公民数据科学的背景下使用,它可能是危险的——这是开箱即用的工具,没有什么过程或思想。自动人工智能系统可以让用户快速构建,但它也可以使算法和分析不像它们看起来的那么好,或者可能产生有偏见的结果。这些陷阱非常普遍,毫无疑问,这些工具功能强大且快速,但它们需要专业知识和大量数据。
(3)生成的人工智能
GPT3和ChatGPT已经展示了大型语言模型(LLM)的强大功能和质量。虽然大型语言模型(LLM)已经存在了一段时间,但ChatGPT提醒了人工智能的潜力和成熟状态,以及它以复杂和通用的方式处理和创造的能力。其结果将是其用例的激增,这将扩展应用人工智能的方式。
(4)减少研发预算
数据多样性的增加和分析方法的进步使得商业结果在大数据计划中变得至关重要。随着大数据和内部流程的优化越来越成为组织的核心,采用大数据项目减少了研发预算。首席数据官以及企业内部专门的数据实践和团队的出现进一步加剧了这一趋势。
大数据不是一个设置即忘的过程
在考虑数据策略时,需要勤奋地工作以确保正在构建的决策系统获得良好的结果。使用生成式人工智能或公民人工智能工具实现目标变得越来越容易。然而,组织必须有意识地处理如何收集、存储、组织和清理数据。否则,很容易得出错误的结果。
定义大数据成功的一些核心因素包括创建备份决策系统来证实结果,并为该计划分配足够的资金和。此外,始终确保将尽可能多的行业知识注入到决策系统的构建和部署中。