8月18日,ArchSummit全球架构师峰会在北京举行。
字节跳动数据平台负责人罗旋、极客邦双数研究院特聘专家/精益数据方法创始人史凯、第四范式研发副总裁/基础技术负责人郑曌、经纬中国高级投资经理谢岩围绕“数字化实践”等多个主题进行了经验分享。
随着互联网流量红利的日渐消退,部分企业正通过“数据驱动”挖掘更深层次的业务价值,进入精益运营时代。
作为国内率先践行“数据驱动”理念的企业之一,字节跳动近年来备受关注。
峰会上,罗旋用“快”和“多”两个字,概括了字节跳动过去几年的发展特征,并指出正是在这样的背景下,字节跳动数据平台完成了9年的演进。
优先解决最显露的业务问题
“快,是业务发展快,2012年推出的今日头条APP用两年时间就实现了用户破千万,抖音APP上线17个月DAU破亿,”罗旋在分享中解释了他所理解的字节跳动发展,“多,则是业务类型多样,除今日头条、抖音为代表的图文信息流、短视频外,近年来字节跳动还发展出包括电商、toB等多条业务线。”
2014年,字节跳动开始了数据平台建设。与同时期大多数企业的数据建设体系不同,字节跳动在路径选择上摒弃了大而全的规划,而是聚焦当时业务所面临的实际问题,优先解决业务痛点。
如果将字节跳动数据平台的建设历程拆解来看,其实不难发现大致可以分出4个演进节点。
首先是为了解决业务最直接暴露出来的问题的阶段,如满足业务随时迭代上线需求,罗旋将其称为“原始阶段”。
在这个阶段,A/B测试是解决业务结果验证问题的重要工具,即便是在今天,字节跳动旗下产品的每一次迭代背后,都还有A/B测试的身影,“像当时今日头条迭代发版,很多业务侧的提问我们都能用A/B测试的实验数据来解答,很实用而且高效。”
在之后几年,随着应用场景增多,A/B测试的功能也在不断丰富完善,并于2016年正式形成标准化服务式产品,并在内部以Libra命名,这也是字节跳动数据平台的第一款自研产品。
发力引擎层建设
最上层的业务问题逐步有了敏捷稳定的解决通路,但另一方面,原本覆盖在业务表现之下的数据层却以指数型增长的速度暴露出更多难题,这也推动着字节跳动数据平台进入第二阶段。
2017年,以抖音为代表的业务数据量急速膨胀,不断挑战原本数据平台的能力边界。罗旋举例,2017年之前,数据平台每天处理的数据量大约在200TB,但去年这个数字已经达到了1500PB,数据平台日新增数据大约在40PB。
成长太快带来的问题很明显,他提到很多时候对数据链路个环节进行优化处理,不只是因为成本,很多时候是因为资源不够,“导致我们必须要去这么做”。
也正因如此,通过优化来解决数据量和分析效率,成为字节跳动数据平台首要的一个突破重点,并为此做了诸多选型尝试,如Presto、Kylin、Druid 等——但出于对“能够处理海量数据、秒级响应的超高性能、自主灵活的分析模式”这三项基本需求的考虑,字节跳动数据平台最终选定ClickHouse为长线使用的OLAP查询引擎,并基于自身发展实际情况做了大量二次开发和优势强化。
同时聚焦提升资源利用率、降低运维成本、提升数据实时性三大性能点,字节跳动数据平台通过火山引擎对外发布ByteHouse。
截止到8月的数据显示,ByteHouse在字节跳动内部的数据分析服务超过了2.5万个节点,单集群最大规模可以达到2400个节点左右;从业务上来看,在字节内部支撑了超过80%的字节分析应用。
数据BP+中台,中央厨房式协作
在历经原始阶段和建设阶段后,字节跳动数据平台的演变进程进入第三个阶段,平台阶段。
在这一阶段,字节跳动已经拥有非常多元迥异的业务线形态,“作为数据平台,我们需要去考虑之前的经验还有没有用?如果要用,该怎么用?以及面对这么多不同的业务,应该怎么更敏捷更深入地加以支持,等等。”
显然,这些并不是依赖技术层面的优化创新就能解决。
通过从HRBP(Human Resources Business Partner ,人力资源业务合作伙伴)中,字节跳动数据平台汲取到了灵感,并以此建立数据BP机制,探索中台能力+数据BP的模式。
数据BP机制在组织形式上属于可以统一管理调配的集中式,执行上分布式到各个业务,解决业务问题。这种组织方式的优势在于,尽管 BP 团队向上支撑了不同类型的业务线,但其实向下兼容了数据平台底层的各项能力,具备相似的技能栈,对工具引擎的学习和使用是高效且顺滑的。
作为数据平台能力的解决方案提供方,数据 BP 团队成员在组织上都汇报给数据平台,统一培养和调度,相互学习经验的角度,对中台能力也保证足够的熟悉度,以便根据不同业务的特性,灵活组合,提供综合性的数据解决方案,也保证了复用性,不轻易重复造轮子;在具体工作时,又能分布在不同的业务线上,跟业务团队充分融合在一起,把自身视为业务线的一部分,保障与业务一起成功。
“就好比是一个中央厨房和餐厅的关系,”罗旋进一步解释道,“通过采摘或者购入食材,进行一系列复杂而标准化的加工,最终为各餐厅提供标准化的成品或者半成品的食物;而餐厅,则可以根据自己的用户需要,煎炸烹煮各种方式来将这些食物组合加工形成一道道的菜,直接供客户食用。”
其中,中央厨房就是中台,而数据BP则承担着餐厅的角色。
现阶段,数据BP+中台的模式在字节跳动内部已经得到广泛运用。
2021年Pico正式并入字节跳动,如何快速实现已有数据平台对全新业务形态的适配与支持,成为难题。
但数据BP机制成为了一道突破口:通过数据BP团队率先融入业务了解业务形态,并梳理出当前阶段的数据状况及痛点诉求,整理出相对完善的技术方案;使得基础数据可以快速接入,同时进行历史数据迁移。
而当基础数据接入之后,Pico业务就能直接在字节数据平台的体系中使用各种数据建设和数据分析应用产品。
这一整套操作只用了3周时间,从Pico业务感知上来说,基本属于「即插即用」的体验。
此外,为了更好评估中台+数据BP模式,字节跳动数据平台还提出了更具量化参考意义的体系标准,“0987”——稳定性 SLA 核心指标要达到 0 个事故,需求满足率要达到 90%,数仓构建覆盖 80% 的分析需求,同时用户满意度达到 70%。
如今,字节跳动数据平台在历经多年内部业务场景实践后,已在探索中台+数据BP模式通过火山引擎的对外输出,这也是字节跳动数据平台历程发展的第四阶段——To B阶段。
截至目前,智能数据洞察DataWind、增长分析 DataFinder 、 A/B 测试 DataTester、客户数据平台VeCDP、增长营销平台GMP、大数据研发套件DataLeap和云原生数据仓库ByteHouse等在字节跳动内部支持服务比较好的产品和经验,已经实现封装成数据套件,并通过火山引擎全面对外提供服务。
“同时,我们也在尝试数据 BP 的是否能帮助到外部客户,让他们也享受到和抖音一样的数据服务级别。”罗旋补充道。
据了解,仅在过去一年时间, 火山引擎的多款数据产品已被陕西旅游集团、服装品牌 Levi's 、得到APP、买什么都省APP、慢慢买APP等文旅、零售、互联网在内的多个行业头部企业应用,并获得实效。(作者:鲁峰)