“云原生大数据”便是以上形式的技术投影。云原生首次由 Pivotal 公司的 Matt Stine 在2013年提出。云原生(CloudNative)是一个组合词,Cloud+Native。Cloud 表示应用程序位于云中,而不是传统的数据中心;Native 表示应用程序从设计之初即考虑到云的环境,原生为云而设计,充分利用和发挥云平台的弹性+分布式优势。云原生大数据即是大数据在设计之初,就充分考虑如何利用云的优势,最大限度释放数据价值。
品高股份早在 2008 年开始自主研发,2010 年 2 月就获得了私有云操作系统商用版本著作权,是一家具有深厚云基因的公司。2015 年,品高股份在面临某省级公安多警种、省市区多层级的复杂数据生态问题时,对大数据平台的研发有了一定的思考。结合多年的云计算自主研发经验、实践经验和敏锐的技术趋势研判,品高股份认为,大数据要有效释放价值,需要解决跨层级跨行业跨领域的数据互联互通问题,构筑成熟的数据管理能力,同时结合云计算的优势,为数据管理和运用提供支撑。2016 年,品高云数据湖从云中应运而生。
品高云数据湖管理平台的云原生主要体现在以下几个方面:采用存算分离架构,通过云原生的存储加速数据访问,通过云原生的计算智能调度资源,通过云原生的网络保障数据安全。
品高云数据湖管理平台(BingoInsight)是国内首批企业级的私有云数据湖之一,是新一代的数据汇聚、共享、交换、开放平台。
云原生大数据,加速释放数据价值
从share Nothing到share Storage
品高云数据湖采用存算分离架构,使用基于 S3 标准协议的云原生对象存储承载大规模数据存储,计算层无状态。相较基于 Hadoop 架构的数据湖,品高云数据湖存储计算分别可按需扩展,具有无缝对接 Hadoop/Spark/MPP 等异构计算引擎、计算资源可回收、弹性计算、更低成本等优势。
借助云技术加速数据存储访问
-数据路由加速
基于 SDN 软件定义网络技术在网络层解决数据智能路由,数据访问时可就近落盘访问,缩短 I/O 路径,减少上行的数据复制包,解决了存算分离架构下的 I/O 延时及性能损耗等问题。
-分布式内存加速
通过分布式内存技术,自动缓存访问热点数据,大幅提高访问速度。
-高性能并发加速
基于底层云平台 DPDK + SDN 架构,将计算节点的数据转发层进行多核并行的架构改造,提升整体云数据湖大数据计算集群网络转发性能,同时提供兼容 POSIX 标准封装 Socket 网络开发组件,对负载均衡、数据缓存等服务进行优化改造,实现关键网络服务的性能提升,在云中提供的纯软件负载均衡服务每秒请求数可达 150 万,最大并发连接数可达 500 万。
云技术助力开放性、轻量级数据计算
-多范式开放性计算
品高云数据湖存储使用标准 S3 协议,可无缝对接离线计算、实时流计算、交互式分析、AI 计算等多范式计算引擎,支持外部表直连访问,外部表支持映射不同的分区文件,灵活满足不同数据处理需求,提升数据共享的使用效率,构建“一份数据,多种计算”,跨部门、跨层级复杂生态的异构计算引擎可快速对接,同时在新计算技术引进或者更替时无需迁移数据。
-轻量级函数计算
品高云数据湖基于轻量级、多编程语言上下文环境保证的容器沙盒,实现兼容 AWS 标准的多租户 Lambda 云函数,以数据湖多维感知的全链路事件驱动,构建云数据湖的内生数据计算处理引擎。支持数据定义 DDL 、数据管理 DML 等事件,如数据写入事件、数据更新事件、数据删除事件等,用户可根据业务场景订阅并设置规则触发云函数,数据湖内置常见图像识别、OCR 识别、实体提取等函数,同时支持用户上传自定义函数,支持 java、c/c++、python 等编程语言,实现敏捷化、轻量级数据处理。
云原生混合调度,屏蔽底层资源差异,合理化分配资源
-异构资源统一管理调度,以最佳资源配置提供服务
针对大数据异构计算资源调度高效能交付场景,根据大数据异构计算引擎的资源需求差异化特性,品高云研究异构资源的统一管控与调度技术,根据物理区域、业务区域、安全区域划分数据计算可用区,在同一可用区内,服务支持运行在虚拟机、容器、裸金属等不同资源形态,支持 GPU、NPU、FPGA 等加速设备资源化交付。在预设的异构大数据计算引擎场景中,可优先提供最佳的资源配置。
-多芯协同调度
国内各芯片厂商发展百花齐放,各芯片所擅长领域亦各有千秋。在此背景下,各集团型企业和单位可能存在多种芯片同时提供服务,甚至可能存在集团企业和其下属子公司所使用的芯片不同的情况。品高云数据湖通过屏蔽底层异构计算引擎差异,根据客户使用场景调度合适的芯片提供计算服务,不同厂商芯片协同向上支撑应用,避免了技术锁定和产能不足等潜在业务风险。
-弹性伸缩以高效利用资源
借助存算分离架构,计算实现无状态,数据计算可根据用户自定义业务规则自动伸缩,支持多租户计算资源隔离和动态调度。
通过SDN保障数据安全
品高云数据湖引入数据沙箱机制,将代码与代码运行所需要的数据和环境变量解耦,根据代码的运行环境,自动关联所需要的数据和环境变量。并通过 SDN 隔离敏感数据,在云网络层面判断访问的客户端 IP、访问协议、访问端口是否有可访问权限;对于高敏感度数据,可用子网络再次进行隔离,多方面多层级保障数据安全。
新技术协同共融共生
通过云计算与大数据的融合,可以发挥出指数增长的价值优势。未来,各技术交叉融合必然是大势所趋,我们将始终保持开放中立的态度,以推动产业发展为目标,积极探索创新融合,为行业客户发展赋能。