全国一体化算力网络国家枢纽节点,是我国算力网络的骨干节点。
为何我国这么重视算力网络的建设呢?
这还要从算力网络本身讲起。
算力网络想要解决什么问题
我们知道,小到个人手机、PC,大到超级计算机、数据中心,算力存在于我们生活的各个角落,成为基础的核心资源之一。
然而,一方面,随着当前算力的普及,算力的利用率却在大幅下降。
有数据表明,各类算力终端的利用率甚至低于15%。
以PC为例,有的家庭拥有不止一台PC,但是并不是每一台PC都物尽其用,大部分时间是处于闲置状态的。
而企业的私有数据中心、科研机构的超算中心,闲置率更甚。
另一方面,随着技术的进步,物联网正在走向成熟应用。
目前,智慧城市、智能家居等物联网应用正在走向普及,万物智能互联产生的数据量越来越庞大,相应地,对计算资源及计算能力也提出了更高的要求。
云计算作为可以随时获取、按需使用、随时扩展的软硬件平台,在一段时间内曾充分满足了物联网终端设备的资源期待,成为物联网的主要支撑技术。
但市场和技术的发展,也使得物联网终端的数量飞速增长,随后增长的是对云上数据计算的需求。设备不断产生实时数据,越来越多的数据集中在云端,而云计算数据中心的增长速度远远落后于数据处理需求的增速。
终端设备能够从云端获取的内存、CPU和带宽等计算、通信资源开始捉襟见肘,造成目前市场上智能终端设备数据处理实时性不足,且难以支撑人工智能等计算需求较大的全新数据处理技术。
这就导致,即便对于很多科学研究人员及企业研发人员来说,算力仍然是一个“奢侈品”:不仅获取成本高,而且使用门槛也很高。
比如,在计算流体力学(Computational Fluid Dynamics,CFD)领域中,一个发动机叶片的仿真就需要1000核计算1周的时间,当前的算力平台显然无法支撑发动机全量的仿真计算。
而为了建设能满足要求的算力平台,可能需要一两年甚至更长的时间。对很多机构来说,建设自己的算力平台,无论是时间成本还是财务成本,都难以承受。
这表明,单靠传统的云计算已经不能满足物联网发展多样化、智能化的需求,于是,以边缘计算为代表的新一代分层算力网络架构应运而生。
所谓边缘计算,是相较于集中部署、离用户侧较远的云计算而言的,是一种更加强调在靠近客户业务端来部署计算能力的平台,可以实现高效的本地处理。
分层算力网络架构的核心,是将数据处理过程分散于网络架构中各个层级的设备中,而不是集中于网络中心的云计算数据中心。
不过,尽管从云计算服务向边缘计算领域扩展已成为业界一种重要的发展思路,但在具体操作时,却存在一个规模与成本之间的悖论。
在传统云计算的商业模式中,规模效应是非常关键的。云计算服务商需要通过不断扩展云计算池,以及通过集中化建设、定制化设备使用、智慧化运营等手段,来共享各类基础设施,降低数据中心PUE(Power Usage Effectiveness,能耗使用效率),从而减少单位算力的建设成本和维护成本,才能在激烈的市场竞争中取得优势地位。
据不完全统计,超大型算力资源池的单位算力成本只有普通算力池的10%~30%。因而,云市场中头部效应非常明显,如国内排行第一的云服务商约占50%的市场份额,并呈现越大越强的态势。
但在强调分布式的边缘计算领域,节点的规模严重受限。
绝大多数边缘计算节点处于靠近用户的网络边缘位置,分布在各种各样的环境中,如电信运营商的接入机房、电力企业的变电站、小区物业的空闲房间等。这些节点空间受限,能容纳的算力资源有限,不具备持续扩展的潜力,因此通过规模效应来降低成本是不可能的。
从维护机制上来看,云计算节点由于设备高度集中,可以采用大量的智慧化运营手段。例如,可利用机器人进行机房巡检,这样可以大幅度减少人力成本,提高运营效率。
然而,这样的方案并不适用于边缘计算节点。在众多离散的边缘机房中,部署大量的智能化运营系统的效益非常低,投入的成本甚至高于机房能容纳的设备成本。同时,这些智能化运营系统自身还需要精细的运维工作,其出问题的频率甚至高于机房中其他类型的设备。
在短期内,利用大量人工进行日常巡检工作是面对大量边缘机房时的唯一解决方案。这也是某些云计算服务商和电信运营商的运维人员在数量上相差多个数量级的一个重要的原因。
因此,在涉及大量边缘计算节点的边缘计算中,采用类似云计算节点的建设和运营模式是不可取的,这就需要一种新的商业模式与技术体系,让更多方参与到算力资源的提供与交易过程中来。
好在,随着5G、全光网(网络传输和交换过程全部通过光纤实现)、SDN(Software Defined Network,软件定义网络)等网络技术的发展,网络已经不再是瓶颈,能够按需将用户和资源池连接在一起。
于是,在新技术的支持下,解决方案应运而生:将算力资源信息通过网络进行分发,在算力资源提供方与算力消费方之间搭建一个交易平台,这就是算力网络。
算力网络≠云网融合
可能有人觉得,所谓的算力网络,不就是当下正在搞的云网协同(也有云网融合、云网一体等叫法)嘛?
其实两者还是有区别的。
从资源匹配的角度来看,算力网络与云网协同都可以做到将算力资源信息与网络资源信息匹配,以实现多类资源的联合优化。
例如,在现有的云网协同方案下,用户可以先选择一个云服务节点,再根据云服务节点与用户接入节点之间的网络情况选择最佳路径;也可以根据网络情况,选择适合的云服务节点,再选择连接路径。粗略看来,算力网络所做的事情也相差不大,但云网协同和算力网络两者在本质上却有很大的差异。
云网协同的核心在于以云为中心,网络连接应该根据云服务的特点进行调整,也称为“网随云动”。常见做法有以下两种,一是网络将能力开放给云管系统,由云管系统统一调度算力资源、存储资源和网络资源等;二是由云管系统将网络诉求发送给网络控制单元,如网络协同编排器等,由网络控制单元根据云业务诉求来调度网络。显然,其关键是先选定云服务,再确定网络连接。所以一个云服务商可以连接多个网络,甚至可以利用SD-WAN(Software-Defined WAN,软件定义广域网)等技术实现跨不同网络运营商的跨域连接。
而算力网络则是从另外一个角度来解决问题的。算力池将自身空闲的算力资源信息发送给网络控制面,然后通过网络控制面(集中式控制器或分布式路由协议)分发这些算力信息。当收到用户的业务需求后,即可通过分析路由表中记录的网络信息与算力信息来选择最合适的算力池与网络路径。显然,算力网络需要先选定网络,再选择算力池(云计算服务节点或者边缘计算服务节点)。
如果可选的网络服务商只有一家,云服务商/算力提供方也只有一家,那么云网协同与算力网络没有太大的差异。但在现实中,网络服务商有多家,云服务商/算力提供方就更多了,这时云网协同与算力网络的差异就相当大了。
在云网协同方案中,用户先选定云服务商,甚至选定具体的云资源池或边缘计算节点,然后可以在多个网络服务商中选择最适合的网络连接产品与最优的网络路径。而在算力网络方案中,则需要先确定网络服务商,然后根据业务对时延等指标的要求,结合网络情况从多个算力资源中选择最合适的算力节点。
简而言之,云网协同是“一云多网”,而算力网络则是“一网多云(算)”。
算力网络,我们还要等多久
不过,尽管算力网络的前景值得期待,从2019年至今,业界对算力网络的研究也有近三年的时间,但不得不说,当前算力网络的发展还处于初级阶段。
算力网络并不是简单地将算力信息放到网络中分发,它还需要与算力交易、网络订购等业务关联起来,形成一个体系架构,才能解决两个层面的问题:一是资源关联,根据用户的诉求将算力资源、网络资源等进行有机的整合,以满足用户多样化的需求;二是资源交易,让用户能够根据自己对业务的要求及能够承担的成本,在算力交易平台上购买最适合的算力资源与网络资源。
因此,算力网络体系要能包含诸多主体,如算力消费方、算力提供方、网络运营方、算力网络交易平台、算力网络控制面等。
算力网络体系内容,图片来源@网络
同时,算力网络要想实现落地应用,也需要多个技术领域的进一步突破。
中国移动提出的算力网络技术图谱,图片来源@网络
目前,算力网络的研究工作主要围绕以下几个方面展开。
(1)算力度量。目前计算资源的衡量缺少一个统一且简单的度量单位,因此如何评估不同类型算力资源的大小成为一个亟需解决的难题。
(2)信息分发。信息分发即如何将算力等资源信息通过网络控制面广而告之。
(3)资源视图。如何给每个用户生成以其为中心的资源视图,让其可以智能选择最佳资源组合也是需要关注的内容。
(4)可信交易。由于算力网络中的各类资源归属不同所有者,算力网络作为一个中间平台,需要考虑如何确保资源交易真实有效且可溯源。
这其中,包括算力度量等在内的算力网络底层基础技术,并未实现真正的突破,所以从算力网络概念的提出到真正的成熟推广,估计还需要至少5年的时间。
总而言之,算力网络固然值得我们关注,但还需冷静看待,这也是我们看待其他新技术应有的态度:既不忽视,也不盲从。
参考资料:
雷波,陈运清,等.边缘计算与算力网络:5G+AI时代的新型算力平台与网络连接[M] .北京:电子工业出版社,2020.11