左手AMD,右手英特尔,腾讯云如何给算力做加法?
(中国计算机世界出版服务公司出品)
2020腾讯全球数字生态大会期间,腾讯云计算力产品能力矩阵首次集中亮相。
云计算行业的竞争以算力为先,无论上层应用如何演化,算力的基础底座属性不变,头部云厂商往往更加重视平衡算力层的效率与成本,当规模足够大,万分之一的优化也能带来巨大的效益,云计算做的恰恰是规模生意。
2020腾讯全球数字生态大会期间,腾讯云计算力产品能力矩阵首次集中亮相。与此同时,腾讯自研星星海系列服务器产品路线愈发清晰,左手AMD,右手英特尔,腾讯云正在给自己的算力做加法。
左手AMD,最“激进”的云厂商
《计算机世界》了解到,腾讯云可以说是拥抱AMD最'激进”的云厂商,不过这种情况正在改变。
腾讯云云服务器副总经理李力表示,其他云厂商逐渐发现“激进”是一个明智的选择,业界开始更多采用AMD处理器。腾讯云于2017年与AMD深度合作,当时AMD还是Naples架构。
随着客户需求趋向于多样化,腾讯云希望对外售卖服务器在标准化的情况下,给客户更多的选择,彼时AMD重返服务器市场,腾讯云在技术和产品层面对其进行评估,AMD本身在设计上也有一些为云计算场景的优化,至少在设计上和需求功能的匹配上,AMD还是合格的。
于是腾讯云引入AMD处理器作为产品的补充,毕竟AMD不是数据中心的主流玩家,在初期AMD的市场推广出现了一些困难,比如来自用户的质疑,腾讯云选择中小型用户或者对成本敏感的用户入手,来推动AMD云服务器的采用,性价比优势突出,基于AMD的云服务器上量较快。
到了AMD的Rome架构时代,腾讯云在星星海自研服务器深度与AMD的Rome平台绑定,并且和AMD的一起定义了腾讯云自己的AMD芯片。
“此时我们已经从激进变成了明智,因为其他云厂商在我们之后也做了这个工作,但腾讯云是最早最积极拥抱AMD的。星星海服务器并不是仅仅为了AMD,为了Rome平台做的自研服务器,它的定位腾讯自研服务器。”李力表示。
腾讯云之前并没有自研服务器的历史,从零开始往往意味着波折重重,但用李力的话来说,“以我个人做技术和做云这么多年的经验来看,星星海在云上上量的过程简直是个奇迹。”
奇迹的点在于——新的自研服务器上线一定不可避免带来螺旋上升,坎坷和回退都很正常,腾讯云已经做好了准备,而实际在过去一整年的推广当中,自研服务器极少发生故障。
“有句话叫云计算没有奇迹,其实是腾讯云过去多年的经验教训和海量业务服务的积累,我们在选择做自研服务器时非常的敬畏,并且花费了大量的精力在其他人并不重视的点上。”李力感慨道。
右手英特尔,最稳定的选择
英特尔仍然是数据中心领域的绝对主导,腾讯云自研星星海服务器当然少不了英特尔。
由英特尔和腾讯合作定制,搭载四颗第三代英特尔至强可扩展处理器和第二代英特尔傲持久内存的腾讯云星星海四路服务器,是业界首家大规模落地RAS技术,能够满足通用计算、异构计算、裸金属、高性能计算等全业务场景,该款服务器在本次大会上正式发布。
英特尔至强Cedar Island四路平台性能优势在星星海上有很好地体现,比如单节点下最高内存带宽以及IO数量,单机柜的处理器核数以及云主机的虚拟机的密度,相比两路服务器也有不少提升,性价比更高的同时运维成本更低。
英特尔针对Cedar Island四路平台做了一些特殊技术开发。比如UPI,UPI作为CPU和CPU之间的高速互连,在Sky Lake和Cascade Lake上面,英特尔做的都是三根UPI,而在四路服务器上,每个CPU配备六根UPI,保证四路服务器CPU和CPU都有两根UPI的全网状连接,能够有效优化四路平台的性能以及支持NUMA节点,类似的设计都在星星海服务器上得到使用。
据悉,英特尔已经投入了数百名工程师,从硬件设计到软件升级,来帮助腾讯设计开发和优化整套基础架构。
腾讯云服务器与供应链管理部总经理刘裕勋表示,星星海四路服务器,作为英特尔与腾讯合作的重要成果,性能优异,不仅可提升腾讯云云服务器、容器服务、云开发等计算矩阵的战略能力,更可让部署更加弹性,让应用与开发更加简洁、可信、灵活,并有效降低云服务总体成本。预计在10月份,星星海四路服务器将正式投入腾讯云计算矩阵,
值得一提的是,英特尔已与腾讯持续推动AI联合创新。双方不仅在硬件层面合作,以内置AI加速的英特尔至强可扩展处理器为基础,通过一系列硬件指令加速,为开发者提供更多选择,提高性能;同时,腾讯云依托英特尔的AI软件栈优化,成功上线Open Vino推理加速引擎,成为业内第一个支持Analytics Zoo的公有云厂商,从数据管理到资源利用,形成完整端到端全栈解决方案。
腾讯云展现算力矩阵,算力越来越“硬”
腾讯云认为,未来智能计算,就是基于5G网络下,云计算、大数据、AI、物联网为一体的智能化计算。面对越来越复杂的数据和不断扩大的业务规模,不同客户的多重需求,腾讯云通过自研战略推进软硬件协同,丰富计算能力产品并对外输出。
基于腾讯云自研星星海服务器上的云服务器实例,在性能、成本、稳定性上已经处于行业领先地位。据了解,星星海服务器针对云计算场景做了重点优化,能够有效地满足腾讯云98%的应用场景需求,其外观用料精简超过 20%,负载能效提高50%。此外,基于可信链传递的硬件防篡改能力,星星海服务器具备符合大规模云应用的硬件安全能力。星星海服务器支持通过专有云TCE在客户的数据中心进行本地化部署。
腾讯云还面向中小企业、个人用户的易于使用和管理的轻量级云服务器Lighthouse,从云能力、云UI、云计费三个方向全新设计,简单易用,实现20秒建站,提升30%运维效率,优化80%的设备成本,能够帮助中小企业及开发者在云端快速构建博客、论坛等各类应用。
除了星星海自研服务器之外,在AI方面,腾讯云支持多种深度学习的GPU,并提供了多种使用方式,满足不同层次需求。腾讯云还提供了智能钛机器学习平台、TBP智能对话平台等专注于AI场景的解决方案。在大数据方面,腾讯云有丰富的大数据机型,满足业务不同的使用场景,同时腾讯云PaaS服务EMR,可以帮助业务降低使用门槛。
边缘计算方面,腾讯云布局了上千个边缘节点,结合5G网络,提供更低延时的计算能力。目前腾讯云正在将公有云延展到边缘节点及客户机房,以便给企业提供本地部署的云环境,将云上产品和技术持续延展。
数据中心以及服务器硬件是算力的底层承载,腾讯云推出了独创的T-block数据中心的解决方案。腾讯自研创新的T-block技术,涵盖中压、低压、IT、办公等功能模块,可以根据用户需求灵活配置,以标准化、产品化形式帮助数据中心实现快速建设和交付。其绿色节能的特性将运营成本降低了20%以上。通过腾讯智维平台实现自动化的高效运营,T-block将运维效率提升了20%以上。
云厂商之间的竞争产业链逐步下移,尤其体现在硬件设备上,软件是互联网云厂商的优势所在,硬件是IT云厂商的强项,两者有一致趋同的势头——软硬件结合。
腾讯云星星海自研服务器仍在进化,未来还会有自研网卡以及ASIC生态的探索,这些底层技术的迭代都会应用到AI、大数据以及边缘计算的场景,软硬结合的腾讯云继续给算力做加法。