那么,大数据究竟如何持续的影响组织和机构,以及它给这个世界带来了何种影响,本文特别整理出2021年大数据技术相关趋势与关键点,以便大家能够在快速发展的数字化时代抓住机遇,快人一步。
趋势一:数据融合与数据价值挖掘
数据融合对于数据价值挖掘来说,具有重要的意义。数据融合的利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性、数据安全性。数据挖掘和AI分析需要面对海量处理能力、云边端协同、建模、人与数据融合、数据自身安全、隐私与商密保护等挑战,需要从基础理论与工程实践多方面研究数据要素价值挖掘的问题,开发出更多的大数据和AI分析技术。
趋势二:知识图谱与决策智能
随着大数据的发展,企业和公共机构越来越需要将不同的数据进行有效链接,从而形成新的动态知识,以辅助企业和公共机构的决策。这就需要运用图数据库、图计算引擎和知识图谱,而知识图谱是图数据库和图计算引擎的重要应用场景。根据DB-Engines排名分析,图数据库关注热度在2013年到2020年间增长了10倍,远远高于其它数据库或数据引擎。其中,用户画像和信用档案则是知识图谱的新应用场景。
目前,国内众多大型云厂商以及一些初创企业都在布局图数据库、图计算引擎和知识图谱,特别是知识图谱已经开始深入应用到金融、工业、能源等多个行业和领域,成为企业决策的重要技术平台与工具。
趋势三:数据处理实现“自治与自我进化”
随着云计算的发展、数据规模持续指数级增长,传统数据处理面临存储成本高、集群管理复杂、计算任务多样性等巨大挑战;面对海量暴增的数据规模以及复杂多元的处理场景,人工管理和系统调优捉襟见肘。因此,通过智能化方法实现数据管理系统的自动优化成为未来数据处理发展的必然选择。人工智能和机器学习手段逐渐被广泛应用于智能化的冷热数据分层、异常检测、智能建模、资源调动、参数调优、压测生成、索引推荐等领域,有效降低数据计算、处理、存储、运维的管理成本,实现数据管理系统的“自治与自我进化”。
数据管理系统一直以来是企业IT架构的重要组成部分,随着物联网、云计算技术的深入发展和开源生态的不断完善,传统数据管理的局限性日益凸显,存储容量有限导致公司无法长时间存储和管理海量数据集,元数据来源广泛、种类繁多,具有多源、异构的特点,这使其在管理上面临数据汇聚、集成、存储和检索成本高的问题;另一方面计算资源匮乏,缺乏统一管理接口和大数据处理环境所需的可伸缩、可拓展的灵活性和高效性。数据管理系统需要承担更加复杂的多租户、多任务下的执行工作,人工手动管理和运维再也无法有效应对海量多源异构的数据规模和丰富复杂的数据处理场景带来的问题和挑战。
传统模式下,系统超载、资源消耗过剩不仅要影响到其他正常运行的系统作业,而且需要大量的人力资源进行系统排查和纠正,难以确保系统有效率的运行状态。因此通过智能化方式实现数据管理系统的升级优化将成为未来数据计算与处理的必然趋势。将系统技术与人工智能技术相结合,利用机器学习算法在数据仓库与数据库系统管理、资源调度、引擎优化、压测生成等各个方面进行数据系统的自我管理,人工智能将充分嵌入到数据处理的整个生命周期,帮助提高数据查询的效率,提升整体资源调度的优化性。
同时,系统技术也将更多地辅助人工智能的深度发展,在大规模多样化数据集上进行高效的数据挖掘和机器学习优化分析的模型选择、元参数搜索、自动化的元数据学习、非结构化数据与结构化数据融合处理等工作,从而帮助系统变得更加智能、安全和可靠。
趋势四:数据中台成未来发展热点
2020年,纳斯达克涨幅较大的企业,多集中在“Big Five”中谷歌、Facebook、苹果等5大数字化企业,其他企业基本没有变化。可见,在今天所有巨大的不确定中,只有数字化是确定的。而利用好大数据技术,掌握以数据为驱动的理念,则成为企业走上数字化道路的必然选择,因为高效的商业模式必将取代低效的商业模式。
企业想要通过数字化运营制定出更好的竞争与运营策略,帮助其在激烈的竞争中取得优势,并在此过程中为企业创造出真正的价值。数据中台则能够帮助企业提升运营模式和实现数据驱动IT构架,即时洞察经营过程,快速反应市场变化,实现精准营销,快速推出适应市场需求的产品,从而实现数字化顺利且快速的转型。
趋势五:云原生重塑IT技术体系
在传统开发环境里,漫长的产品开发、测试和上线周期,不稳定的产品研发效能是企业IT领导者和开发人士面临的核心问题和挑战,同时在应用程序的部署过程中,软、硬件环境等基础设施的技术复杂性很大程度束缚开发人员对于业务实现的生产力,受制于数据库、数据中心、操作系统等传统架构的局限性,制定的业务解决方案需要不断妥协与折中,效能也可能大打折扣。
以容器、k8s、ServiceMesh、Severless为代表的云原生技术将充分沿用云计算的设计理念,全面利用分布式、可拓展、灵活性的云计算架构,达到毫秒级别的极致弹性能力,从而应对业务突发场景;同时基于云原生平台系统高度自动化的资源编排调度机制,实现应用的可拓展和易维护,通过微服务助力应用敏捷开发,进而大幅降低业务的试错成本,提升业务应用的部署和迭代速度。另一方面,云原生将网络、服务器、操作系统、业务流程等基础架构层高度抽象化,更高效地应用和管理异构硬件和异构环境下的各类云计算资源,向上支撑多种负载,包括大数据计算、区块链、人工智能等创新性的服务,高效解决部署一致性问题,并极大地降低云服务的使用门槛,让开发者只需关注业务逻辑本身并最大程度回归到应用程序的开发环节,专注于用户服务和商业价值的创造过程,从而帮助企业实现快速创新。
云原生将重塑IT技术的全链路体系,在开发、测试、上线、运维、监控和升级等环节中形成新的技术标准,通过技术生态推动整个云计算的标准化,使大规模、可复制的跨区域、跨平台和跨集群的部署能力成为可能,将更多敏捷、分布式、可扩展的技术红利带给企业和开发者。
趋势六:大数据推动健康革命
新冠肺炎的流行作为导火索,需要更多的技术手段来解决健康这一课题。一场由大数据推动的健康革命即将到来,在新的一年里,我们将看到它开始发挥更多实际价值。
由此,大数据逐渐成为解决健康相关问题的切实方法,人们欣喜的看到这些努力正在变成积极的成果。
最近,Google的深度学习项目Deepmind的重大技术飞跃,预计它将对医疗健康行业进行彻底变革。通过Deepminnd的AlphaFold项目,它能够解决生物学的最大挑战:它成功地从蛋白质氨基酸序列中,确定了蛋白质的三维形状,解决了一个50余年的生物学难题,比科学家预想的解决方案提早了几十年,而且超过了其它一百多个研发小组。
此项突破意味着医学的突破性进展,可能会给药物制造带来突破性解决方案,包括对人类疾病比如癌症、痴呆、传染病等。
趋势七:增强数据分析已经成为主流
数字化与增强数据分析的趋势越发明显,一个主流挑战是大数据市场正在不断增长,数据集合变得如此之大,处理和解释它是现在的一项重大挑战。
增强分析通过使用机器学习与人工智能技术,对数据进行自动化准备、清洗、共享以及分析数据,并解决问题。做过数据分析的开发者应该知道,这本质是将海量数据转换拆分为小颗粒度并可分析的数据集合。
增强分析将在2021年正式成为主流技术趋势,到2025年,增强数据分析市场的复合年增长率将会达31.2%。Gartner数据表示,在2021年,增强分析将成为商业智能(BI)的主流驱动力量。
趋势八:增加对图表的关注
据Gartner表示,知识图谱作为五大新兴技术趋势之一,它可以弥合人与机器之间的鸿沟。根据Dataversity对的知识图谱定义,即帮助捕获很多不同概念的数据资产;协调捕获数据并标准化数据分类;通过统一捕获数据来显示关系。
随着数据集的不断扩大,数据也变得越来越难以分析和理解,知识图谱因此显示出其价值所在。知识图谱是将对象、概念和事件彼此关联描述的集合,这些描述通过链接和语义元数据方法,为创建数据提供更良好的上下文体系,这样可以更方便的分析、集成、共享和统一数据。在资源描述框架中,知识图谱提供了一个框架,可以方便地表示各种类型的数据,并具有互操作性和标准化。
趋势九:数据安全热度持续上升
大数据、数字经济要通过相应的法律制度以及相关措施来保障健康发展。
一是改变计算方式,边计算边保护;
二是构建免疫系统,改变安全体系结构;
三是网络系统安全要构建“安全办公室”“警卫室”“安全快递”这“三重”防护框架;
四是对人的操作访问策略四要素(主体、客体、操作、环境)进行动态可信度量、识别和控制;
五是对“风险分析、准确定级”“评审备案、规范建设”“感知预警、应急反制”“严格测评、整顿完善”等环节进行全程管控,技管并重;
六是达到非授权者重要信息拿不到、系统和信息改不了、攻击行为赖不掉、攻击者进不去、窃取保密信息看不懂、系统工作瘫不成等“六不”防护效果。
趋势十:数据控制备受关注
现在企业生成、存储和移动的数据比以往任何时候都要多。AI和ML等相关技术需要大量数据进行分析和关联,以开发业务和IT智能。但是,企业必须谨慎管理这些不断增长的海量数据,以限制容量,确保及时性、防止更改或删除,以及最大程度地减少跨网络的移动。专家预计,到2022年70%的数据将源自数据中心外,这是艰巨的挑战。这里的问题不在于数据量,真正的问题在于数据管理、数据保护(需要遵循业务和法规要求)以及数据移动,从数据源到应用程序,可处理数据以为业务获得有意义的结果。
目前有两种主要方法可以解决数据管理问题。第一,企业必须投资于更大更快的网络连接,以便根据需要在主数据中心之间来回移动远程数据。第二,IT团队应部署数据精简工作流,并在边缘执行更多的数据分析和处理,并且仅将经过预处理或分析的数据集返回给主数据中心。