阿里云的逻辑是,当规模足够大时,就可以摊销相对固定的研发与技术成本,从而实现盈利。但做大规模的前提是深耕技术,实现技术突破才可能有好的市场表现,继而做大规模。
撰文|蓝洞商业 郭朝飞
云计算进入调整期,腾讯云改变模式、注重盈利,阿里云则强调要回归技术。
「今年我们最重要的策略是B2B,就是Back to Basic,回到云计算的本质,云计算的核心竞争力是技术,坚持在技术的长征路上,不断取得新的突破。」阿里云智能总裁张建锋在2022阿里云峰会上说。
同时,阿里云发布一款云数据中心专用处理器CIPU(Cloud Infrastructure Processing Units 云基础设施处理器),其向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云上百万台的服务器。
对此,张建锋的解释是,云计算进入一个新的发展阶段,需要定义全新的技术体系,从数据中心的内部体系结构里做一些创新,体系架构从以CPU为中心转变为云操作系统+CIPU为中心。
强调底层技术,并不意味着阿里云准备放弃收入与利润。
5月底,阿里发布截至2022年3月31日的2022财年财报,本财年阿里云在抵销跨分部交易前全年收入为1001.8亿元,抵销后为745.68亿元,13年来首次实现年度盈利,经调整EBITA盈利11.46亿元,上年亏损22.51亿元。
张建锋将之视为自然而然的结果,「这是对阿里云长期坚持技术投资的回报。」
阿里云的逻辑是,当规模足够大时,就可以摊销相对固定的研发与技术成本,从而实现盈利。但做大规模的前提是深耕技术,实现技术突破才可能有好的市场表现,继而做大规模。
如此看来,回归技术也是瞄准利润,这本来就是一回事。
新的争夺点
阿里云已经进入第13年。在这十几年中,从行业与技术来看,云计算也走过了两个不同的发展阶段。
在第一阶段,互联网企业大量出现并高速成长,以分布式和虚拟化为代表的云计算技术出现,并逐渐替代大型机和小型机,满足企业业务扩展带来的算力弹性需求。
进入第二阶段,在以CPU为中心的分布式架构下,云计算公司通过软件定义的方法,将计算、存储资源池化,构建计算存储分离的架构,规模化编排和调度,形成超大规模的计算和存储资源池。
「两个阶段有共同的特点,都是通过软件定义的方法,基于传统的、以CPU为中心的计算体系架构去做优化,已经触及瓶颈。」张建锋说。
阿里云基础产品首席架构师黄瑞瑞向「蓝洞商业」等分析了当前资源池化面临的巨大考验。
作为云计算厂商,资源池化的同时,要服务大量不同客户。拿阿里云来说,其在全球有上百万台服务器,资源池化出算力后,其挑战在于如何对大量的计算、存储、网络等资源,进行统一的管理、调度、编排,并且有效地发挥性价比。
「这个是非常关键的点,而且是个非常巨大的挑战点。」黄瑞瑞坦承,这也正是云计算第三阶段,CIPU的一个非常重要的职责。
同时,用户对低时延、高带宽的需求也越来越高,以CPU为中心的计算体系架构已无法满足。
事实上,2015年阿里云就有团队开始着手解决这些问题。两年后,阿里云发布神龙云服务器,其实现虚拟化损耗为零。此后,神龙、弹性RDMA等核心技术被垂直整合,形成以CIPU为中心的架构。
在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。
从全球范围来看,一些科技巨头亦有布局。比如亚马逊推出Nitro系统,英特尔与英伟达分别做出IPU(Infrastructure Processing Units基础设施处理器)与DPU(Data Processing Unit 数据处理器),后两者的目的都是分担CPU的网络控制、存储管理和安全等工作负载,提高数据中心效能。
阿里云虚拟化技术负责人蒋林泉告诉「蓝洞商业」等,英特尔、英伟达是供应商,与阿里云不是对手关系,阿里云是云服务商,CIPU是为云而生。「我们认为跟AWS其实都迈入到了类似的一个新阶段,只是说有些区别,因为我们在不同的市场里面,看到的风景不太一样。」
云计算技术进入新的争夺点。
获取后坐力
阿里云一直走的都是做深基础、技术变现的路线。
在阿里云早期,曾被质疑过「明明可以坐高铁,却偏偏要骑自行车」,但依然坚持核心技术自研。
阿里云技术产品负责人蒋江伟向「蓝洞商业」等回忆,2009年前后阿里云就开始做基础底层产品相关的工作,比如研发数据库、存储系统,阿里云的第一行代码就是盘古存储的代码。在硬核技术上投入,是阿里云的基因。
神龙计算、盘古存储、洛神网络等是阿里云产品的核心。
为了解决服务器的虚拟化性能损耗的问题,阿里云自主研发了神龙架构。该架构通过把虚拟化转移到专用硬件中进行加速,其将物理机的高性能与虚拟机的灵活性相融合,虚拟化损耗几乎为零,性能又比传统物理机更强劲,还可随时扩容,极大降低了客户成本。
盘古存储则是将所有的磁盘虚拟成一个超大规模、稳定可靠的磁盘。实际上从用户角度,形象地说面对的是一个超大的存储湖、存储池或者存储海,也并不用搞清楚存储的物理位置或者具体的机器类型。随着数据的增长,用户随时可以申请到更大规模的存储。
洛神网络是基于软硬一体的云网络系统。客户上云时,洛神可以快速构建一张全球化网络,根据业务需求随时获取各种网络服务。同时,用户可以实现云上和云下业务的一键打通,通过多种方式将IDC、客户站点、分支站点接入阿里云,享受统一的管理和一致性的业务体验。
此外,阿里云还自研数据库,这与当年阿里的「去IOE( IBM的小型机、Oracle数据库、EMC存储设备)」有关。
2013年7月10日,淘宝核心系统中的最后一台Oracle数据库下线。三年多以后,阿里云自研的云原生数据库PolarDB发布,2018年4月正式商用。此后,阿里云针对不同应用场景,开发出多款数据库产品。
正是有了自研技术、做深基础的积累,几年后,阿里云逐渐进入越来越多的行业,规模越做越大。数据显示,2014年~2018年4年间,阿里云增长约20倍,曾连续12个季度营收翻番。
2020年12月,阿里云首次实现盈亏平衡,在2021财年第三季度实现营收161亿元,调整后EBITA盈利2400万元。张建锋很清楚,这是阿里11年来长期投入的结果,他表态「会继续加码技术投入,深耕产业数字化。」
飞天系统+CIPU的体系架构将让阿里云实现更大规模的增长。
数据显示,CIPU与计算结合,快速接入不同类型资源的服务器,可以实现算力「0」损耗,硬件级安全的加固隔离;CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;CIPU与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
此外,基于CIPU和飞天的新一代云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能。
张建锋给出一组数据:在通用分布式计算领域,Redis性能提升68%、MySQL提升60%,Nginx提升30%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升30%,业务高峰期延迟下降了90%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。
阿里云回归技术,可以获取更大的后坐力,打向更远更大的市场。