从阿里云CIPU看新一代云计算架构体系


CSDN特约撰稿人 | 文钊

6月13日,阿里云发布新一代云数据中心处理器CIPU(Cloud infrastructure Processing Units ),这是为新型云数据中心设计的专用处理器,未来将替代CPU成为云计算的管控和加速中心,它被业内人士认为是一款定义下一代云计算标准的开创性产品。

近20年随着互联网,大数据、云计算、物联网的发展,数据中心计算架构经历了快速的演变过程,新兴的互联网、云计算公司逐渐成长为行业巨头,代替了传统的OEM厂商,成为数据中心领域话语权的主导者,引领着行业的产品和技术不断进步。其中,以AWS、Azure、阿里云这3A为代表的云计算公司又是其中最重要的推手,几乎每一项技术变革背后都有这几家公司的影子。在笔者看来,数据中心的计算架构至少经历了三个大的阶段。

阶段一:数据中心传统模式到云计算


2006年AWS发布了EC2和S3两款产品,是目前业界公认的云计算大幕拉开的标志性事件。随后的2009年,阿里云、Azure也在看到了云计算的潜力后相继入局。在那个年代,Intel CPU通过VT-x技术实现了CPU和内存的硬件虚拟化,通过VT-d以及PCIe SR-IOV等技术实现了IO接口的虚拟化。彼时,AWS的底层虚拟化技术还是用的开源的Xen,一台主流的2路服务器还只有16个HT core。而这一发展就是近十年的时间。
随着4G网络的发展,互联网公司遍地开花,云计算公司的业务扶摇直上。而随着服务器上的客户越来越多,跑的workload越来越丰富,也让云计算公司从其客户的使用中不断吸取经验,打磨自己的产品,最终的目标都是让计算的产品朝着物理机的性能、安全方向演进,为用户上云创造良好环境。
在计算能力上,AWS、Azure、阿里云等公司结合云上用户的负载和需求,从2015年开始陆续针对数据中心的CPU做一系列定制,如为了满足高性能客户更大规格实例能力的要求,AWS C4定制了10核心的“haswell-ep”XeonE5-2666 v3处理器,对比标准的高主频CPU型号高了25%的能力。
在网络能力上,2013年AWS的C3实例通过虚拟网络直通VM(SR-IOV) 支持Enhanced Network使得带宽提升20%,时延降低50%。
由于此时的虚拟化还跑在主机上,因此需要一部分的CPU和内存资源去运行传统的“Dom0”,因此我们会发现AWS的C4、R4等haswell、broadwell实例都存在4c/12G、8c/24G不等的资源无法被售卖,这个就是我们所谓的数据中心税,在那个CPU核心数还较少的年代,动辄10%-30%的资源无法被售卖,是一个巨大的成本浪费。

阶段二:解决数据中心税的问题,性能军备竞赛

随着客户对性能要求的提升以及网络(10G-25G)、存储能力的发展,网络vswitch和存储越发成为云计算场景CPU资源消耗的两类后台工作任务。在传统模式下,网络和存储的性能非常依赖于主机侧CPU的性能,而在2014-2020年期间,实际上摩尔定律的发展受到了非常大的挑战,CPU核心数增长缓慢,IPC提升也有限,想要推动网络和存储性能的提升仅仅依靠主机侧CPU更多的核数、更高的频率,代价过于巨大——可售卖CPU资源减少,由于频率带来的发热和功耗增长带来的额外Opex(运营支出)成本都难以让人接受。在此过程中Intel甚至想到了一些从CPU层面的解决方案,如允许部分CPU跑在更高的P1频率和Turbo频率的技术,但终究不是令人满意的解决方案。
于是各家都在寻求一些更好的解决方案:
2017年10月的云栖大会上,阿里云发布了“神龙”架构,基于CPU+FPGA方案,从支持裸金属的虚拟化,做到性能超越物理机的裸金属服务器;再到第二代神龙做到了“一套软硬件,三种服务(裸金属服务器+虚拟机服务+容器)”,解决了虚拟机和裸金属分池的问题,性能层面也实现了“虚拟机性能接近裸金属”;之后的第三代、第四代做到了24M、50M的PPS能力,在解决了数据中心税的同时,实现了性能的大幅飞跃。
一个月后,AWS推出了Nitro系统。基于AWS收购的Annapurna公司研发的Arm架构的AL72400芯片,做成将网络和存储offload的Nitro VPC卡和Nitro EBS卡,以及本地存储的InstanceStorage卡。正是Nitro架构改变了服务器硬件的主从关系,当所有的Dom0全部Offload到网卡之后,主处理逻辑全部在智能网卡,主从的关系也需要发生逆转。因此,智能网卡变成了主管理节点,而服务器上的其他部件变成了从服务节点。
AWS的C5实例就提到“新的 EC2 虚拟化引擎将提供更加平稳的性能和更强的计算能力和内存能力,因为它移除了主机的系统软件组件(host system software components)。如此,我们的 C5 实例可以提供一些超大的版本(如 c5.x18xlarge),这基本上整台主机的资源用户都可以用上了。之前的 C3 和 C4 实例已经做了一些软件组件的移除,把 VPC 和 EBS 功能转移到了 AWS 自己设计的硬件上。现在,这个硬件可以让虚拟化引擎以最小化的体积运行,因为它不需要去处理网络和存储的数据处理任务。”至此,AWS的数据中心税问题解决了,但性能只有3M PPS,之后推出的基于16c Arm A72架构的100G Nitro网卡进一步支持EFA实现更低时延、更高可靠性以及3倍PPS性能提升,性能的问题也基本上得到了解决。
微软的Azure也看到类似的问题,考虑到可编程性、性能和效率的权衡,他们使用了基于FPGA的自定义Azure SmartNIC将主机网络卸载到硬件的解决方案。但也仅仅是网络的卸载和加速,存储和管控面看上去还是跑在主机侧,最新的基于Intel Icelake的实例EDv5系列E104id v5 104c/672G内存,数字上来看还有至少24c的额外资源占用。
随着阿里云神龙架构、AWS Nitro的引领,京东、腾讯、字节等公司也采用了类似的架构构建自己的公共云计算服务,数据中心计算架构的中心开始向智能网卡倾斜。
有趣的是,在笔者所在的服务器架构领域也深刻地受到此趋势的影响——由于网卡的能力越来越强(以及各种PCIe IO设备的广泛应用),传统的服务器后出线的架构难以高效地对位于服务器后端的网卡设备散热,阿里巴巴的自研服务器首先推动了业界大量从后出线到前出线的架构演变,实现了更高的散热效率,铺平了演进到100G以及未来更高带宽网络的路。国内其他互联网公司的服务器架构也陆续转向了前出线架构。

阶段三:用户需求的多样化,

驱动了CIPU为中心的新一代计算体系诞生

随着技术的演进,用户需求日趋多样化。AMD的数据中心芯片、Arm架构的数据中心芯片等都给用户带来了更多的选择;异构加速芯片也百花齐放,FPGA产品,推理芯片,训练芯片,视频编解码芯片等等;存储上,local SSD用于cache,用于高性能数据库应用、系统的可信和安全、加解密能力等等。
将所有的需求都通过云的方式对外呈现,呼唤新一代计算体系的诞生。
刚刚召开的云峰会上,阿里云发布了云基础设施处理器CIPU,有望替代CPU成为下一代云计算架构体系的管控和加速中心。

CIPU是一种新形态的处理结构,将传统通用计算单元、满足特定工作负载的加速计算单元、以及满足网络和存储功能卸载的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,高效满足复杂多变的云上数据中心算力场景。CIPU的体系优势体现在网络层面的网络设备硬件虚拟化、网络转发硬件加速、链路硬件加解密、eRDMA技术的普惠化;存储层面的硬件虚拟化、硬件加速以及链路的硬件加解密能力;同时具备硬件层面的安全和隔离能力等。
据阿里云透露,CIPU与计算结合,可以快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;CIPU与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
在未来三十年里,用户需求驱动的CIPU必将会持续在高性能、低延迟、高稳定性和安全能力方面持续加强;CIPU架构也会持续迭代降低自身的成本,例如在性能诉求不高的场景通过Multihost架构实现CIPU的池化,大幅降低其成本分摊;通过部分相对固化功能的芯片实现设计的高可用性及稳定性等。
CIPU的核心优势是去中心化架构,不再以传统的CPU为核心,既保留了CPU的灵活性,且兼具架构的可扩展性,在当前各种高级封装技术的加持下,其未来具备更多的想象空间。
云计算的发展一直是以用户为中心,通过不断的技术迭代解决用云过程中遇到的各种问题。我们有理由期待,在CIPU为代表的新一代数据中心计算架构下,用户和互联网的创新会以更快的速度和云计算结合,不断推动技术的变革。未来已来!

建久三年(1192年),源赖朝出任征夷大将军,建立了日本历史上第一个幕府——镰仓幕府。但在源赖朝病死后十几年,源氏将军家彻底绝后,镰仓幕府的实权则控制在北条一族手中..

1月8日,有三个与马云相关的公告引发市场关注。1月8日晚间,阿里巴巴集团在港交所公告称,马云先生将不再控制君瀚和君澳持有的蚂蚁集团多数投票权。同日,恒生电子也公告,..

完善党和国家监督体系的重要举措解读《纪检监察机关派驻机构工作规则》之一中央纪委国家监委网站曹溢报道近日,《纪检监察机关派驻机构工作规则》(以下简称《规则》)对社..

由中共中央纪律检查委员会、中华人民共和国国家监察委员会、中共中央党史和文献研究院编辑的《习近平关于坚持和完善党和国家监督体系论述摘编》一书,近日由中央文献出版社..

中国当代阐释学作为中国当代人文学术的根本方法,其根基何在,是关乎中国学术建基及走向的重要问题。传统经学的核心方法——训诂以及其中蕴含的训诂学思想,为解决这一问题..

大概在去年的时候,我们写了一篇文章《安徽改名最失败的地方不是合肥,而是这里!》,引发了大家的广泛热议,有网友留言说:不同意!、最失败的还是合肥!确实,在每个调侃..

诸葛亮挥泪斩马谡,对于如今企业人才培养有何启示?用人切忌重理论,不重实践人才任用选拔不可太随意提前做好人才储备工作诸葛亮挥泪斩马谡,已经成为《三国演义》的经典片..

中国共产党党内法规体系(二〇二一年七月)中共中央办公厅法规局前 言  2021年7月1日,习近平总书记在庆祝中国共产党成立100周年大会上宣布,我们党已经“形成比较..

高中历史最全知识体系汇总——萌牛君时间、分期公元前三世纪以前的世界夏、商、西周(前21世纪至前8世纪)春秋战国(前8至前3世纪)中国历史经济1、农业:原始农业发展,经..

3月17日,拼多多发布2020年第四季度及全年财报。截至2020年底,拼多多年活跃买家数达7.884亿。平台四季度新增5710万活跃买家,去年累计新增活跃买家规模超2亿。如市场此前..

本文由 CSDN 来源发布

从阿里云CIPU看新一代云计算架构体系

评论问答