以往商业集中式数据库凭借较强的功能黏性、优秀的系统稳定性、良好的软硬适配能力,一直在金融行业占据较大份额。而互联网金融的异军突起,带来了高并发、海量数据、超高峰值等挑战,为了应对这些实际场景,近年来各金融机构纷纷进行了关于数据库的探索,并结合金融交易场景不断推陈出新。
极速、统一是金融行业始终追求的目标
金融行业应用场景首先对“极速”有着严苛的要求。试想一下,在证券和期货交易中,券商和期货公司如果不能在最短的时间内获取最新股票、期货的相关信息并尽快向交易所提交相应的交易请求,该券商或期货公司就失去了核心竞争力。
第二,强一致性也是保障金融行业转型的重中之重,包括要从主备数据复制方式、数据复制比较、容灾切换、零丢失零出错、数据强一致性等方面入手,来实现与集中式数据库一样的强一致性需求。
在这样的背景下,传统的IT系统已无法满足金融交易时延等要求,需要采用新的技术,实现超低延时的极速交易系统。分布式数据库凭借高性能、可扩展、高可用和高容错等特性,在金融行业的应用规模有了明显的提升,并且正在从金融外围系统向核心业务延伸,有力支撑着金融行业的数字化转型。
在过去几年中,我国数据库市场 “百花齐放”,诸多厂商都加入到了分布式数据库产品的赛道,包括传统数据库厂商,如达梦、人大金仓、神州通用;云厂商,如阿里云、腾讯云、华为云;新兴数据库厂商,如StarRocks、PingCAP、星环科技、OceanBase;及ICT跨界厂商,如新华三、浪潮。这些厂商的数据库产品和方案,正在各大商业银行、金融机构及城商行的核心业务系统中投入使用并稳定运行,这也进一步验证了分布式数据库完全可以满足金融行业核心业务系统对数据库的要求。
接下来我们来看两个实际案例,希望能为更多金融行业用户的转型带来借鉴和参考价值。
极速致胜,唯快不破
中原银行是河南省唯一一家分支机构网点覆盖全省的省属法人银行,在全国城商行中的排名位列第 8 位,是河南首家资产超万亿的城商行。随着业务不断扩张、数据量的高速增长以及业务逻辑复杂程度的不断提升,中原银行需要快速响应客户需求,为其提供更加精准的服务,同时借助实时数据进行客户洞察,帮助银行业务人员做出业务决策,提高管理水平。
为此,中原银行搭建了一站式商业智能BI平台,该平台总用户已经超过一万人,为支持BI平台的快速高效工作,中原银行搭建了完整的数据平台。其中,该平台的存储计算层分为数据湖、离线数仓与实时数仓三部分,由实时数仓对实时数据进行处理,辅助进行实时决策。随着用户的增加,该数据平台的查询效率亟需提高,以保证数据的统一管理与高效应用,提升实时响应能力。凭借流批一体、向量化执行、运维简单、查询效率高、兼容性好且能够满足高并发查询要求等优势,中原银行选择了StarRocks,来满足中原银行构建极速统一的数据分析架构的业务需求。
目前,中原银行使用StarRocks完成了固定报表迁移、知秋系统改造与实时数仓建设,极大提高了银行的数据导入、查询与分析效率。迁移完成后,固定报表查询效率提升为原来的2.7倍,所需时间下降到3秒以内。尤其是原耗时排行top 10的报表,查询效率提优化了10倍以上,提升效果明显。同时还实现了自助客户行为分析,查询效率显著提高。
众安保险是中国首家互联网保险公司,专注于应用新技术重塑保险价值链。在“保险+科技”双轮驱动下,众安将自身沉淀的保险科技能力和先进的商业模式向行业和海外输出,催生出数字化转型中专门针对业务数据管理和分析的系统产品--集智。目前在众安保险内部各业务线和部门,超过3000人都在使用集智平台,平均日活可达2000+。
一款好的数据分析产品离不开底层的数据引擎,集智平台的几大使用场景对底层的数据架构提出了可视化、交互式、多维透视、实时数据分析等要求。经过选型评测,集智平台选择StarRocks作为底层统一的OLAP引擎,因为StarRocks可以支持数千用户同时分析,支持高并发,部分场景每秒可支持高达1万以上的QPS,TP99可以控制在1秒以内。StarRocks支持Shuffle Join,Colocate Join等多种分布式Join方式,通过CBO优化,可以自动选择性能最优的查询计划,使得多表关联性能更优。StarRocks还支持事务性的DDL与DML操作,兼容MySQL协议。
在使用StarRocks的模型作为实时报表的底层数据支撑后,集智在业务场景中的数据查询表现优异:业务方打开报表加载时长由10s+,缩短为3s左右,在查询数据量支持方面,可支持近亿级数据量,能够适配更多大数据量下的业务场景。
极速统一再升级,全新发布3.0版本
通过两个案例可以看到,作为新一代极速全场景MPP数据库,StarRocks 具有可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势,解决了用户“数据多,很难在一台物理机器上分析数据”的难题。的确,StarRocks创建的初衷就是满足“极速、统一”的场景需求。
在今年9 月的StarRocks Summit Asia 2022上,StarRocks社区正式发布StarRocks 极速数据湖分析,开启了极速统一3.0时代。
StarRocks 3.0在 SSB单表、SSB多表、TPC-H三个标准测试集下,相比于去年同期,性能提升了50%-80%。在物化视图、资源隔离、Query Cache、自动化数据分布、导入优化等各个核心功能均有重大突破。
StarRocks认为,极速数据湖分析就是为用户提供性能堪比数据仓库的数据湖分析。在整个架构层面,当前StarRocks的数据湖分析已经具备了存算分离、弹性伸缩的能力。在存储层,数据支持按照Apache Hive、Apache Iceberg、Apache Hudi等主流表格式维护在对象存储之上。在计算层,从查询生命周期来说,StarRocks的无状态计算节点compute node,已经可以负责从扫描到聚合的全部计算任务;当前StarRocks已经可以部署在 k8s 之上,感知系统负载并进行灵活的资源调度与节点伸缩,无需数据迁移,更好支持资源峰谷场景。在控制层,FE 统一接入各类主流数据湖的元数据,并对湖上查询请求进行统一调度和规划。用户通过StarRocks进行数据湖分析,一方面能够享受存算分离、弹性伸缩等前沿技术带来的降本增效,另一方面,无需数据导入即可享受到堪比数仓分析的极速性能体验,更加敏捷地从数据湖中获取灵感和洞见,驱动业务增长。
极速统一之路,未来可期
人民银行今年发布的《金融科技发展规划(2022-2025年)》中提出了八大重点任务,明确到2025年,金融科技整体水平与核心竞争力实现跨越式提升,数据要素价值充分释放、数字化转型高质量推进、金融科技治理体系日臻完善、关键核心技术应用更为深化、数字基础设施建设更加先进。其中,数据库一直是金融行业持续创新的重点领域,涌现出了大批的热点技术和产品。而数据库产品无论选择哪条技术路线,目的都是要满足高可用容灾、数据一致性、业务连续性和系统可扩展等方面的要求。
另一方面,分布式数据库产品化程度相较于商业集中式数据库还存在一定差距,需要通过实际的应用场景持续打磨,提升产品成熟度。当然,随着分布式数据库在越来越多的金融场景中使用,必将会出现更多大数据量、高并发等复杂业务场景下的成熟案例。