镜头探秘超级数据中心:史上最大“计算机”开箱 | 甲子探访

科技与产业之间,隔着一个“甲子光年”的距离。

作者 | 甲小姐、刘景丰
策划 | Bella

我们离科技,从未如此近。

点一次外卖,买一件衣服,用手机看一场球赛,随时随地和千里之外的朋友视频,打一辆自动驾驶汽车……过去十余年,数字技术的快速发展,正在让这一切变得习以为常。

科技离我们,又渐行渐远。

外卖、电商背后,系统是如何实现海量数据的实时计算分析和决策?随时随地的视频背后,是什么支撑了数十亿次播放?自动驾驶背后,又涉及怎样的复杂技术难题?

1%的惊艳体验背后,是99%的复杂技术功课。

自「甲子光年」诞生以来,我们一直在细数未来如何发生,但仅靠深访文章、数字调研、案例实勘,只是能揭开科技的冰山一角。横亘在“看得见的应用”到“看不见的技术”之间的,是一道数字世界和物理世界的真实鸿沟。

相信你也面临着同样的好奇:伴随物理世界“上翻”,数字世界“落成”,如何真正这正在发生的一切?如何从“知道”到“懂得”?唯有到科技发生的现场去看看。

所以,2021年新春,我们将开启一个系列视频新栏目:

甲子光年创始人、CEO张一甲将携手阿里云《超级探访》栏目组,走进正在发生的技术一线现场——用镜头追问一切,让科技真正“可摸可见”。


第1期:走进超级数据中心,巨头的下一个战场

在2020「甲子引力」大会上,我们发布了2020中国数字经济的55个判断,其中提到:数据中心将成为下一个十年科技巨头争夺的新重点。

5G商用,将进一步催生海量的数据处理需求;而摩尔定律正遭遇瓶颈,换句话说,数据量增加的同时,单个服务器处理数据的性能增长却在变慢——只能靠建更多数据中心来解决。

在新基建的政策加持下,科技巨头已不满足于“隔岸观火”,从过去以租赁数据中心为主到开始在这一领域亲身试水,不仅自建数据中心,更染指设备的自研,且投入金额巨大:

腾讯5年投5000亿、阿里3年投2000亿、百度10年内将服务器规模扩展到500万台……轻资产的互联网科技巨头扎入数据中心这个重赛道,背后折射的,是科技巨头全面押注云计算的决心。

这个赛道很有看点,未来的超级数据中心产业,很可能会成为工业时代的汽车产业。

过去100年里,汽车产业对整个社会经济的推动作用是无出其右的。一座超级数据中心,也涉及无数软硬件技术,一座数据中心产生的带动作用并不比一座汽车厂小。

所以,数据中心可以说是数字经济时代的“汽车产业”。可以预见,超级数据中心将成为下一个十年科技巨头争夺的新重点。

正片上:史上最大“电脑”开箱

正片下:探访超级基础设施

张一甲:中小型数据中心、大型数据中心、超级数据中心,分别是怎么定义的?我们找来阿里云技术专家炽平,详细了解下它的特点。

阿里云技术专家炽平:首先,超级数据中心规模必须大,至少要有30万台(服务器)以上的支撑量;其次要有扩展空间,满足未来的可扩展性;第三需要应用新技术。

张一甲:互联网公司过去都喜欢轻资产模式,而超级数据中心是个很重的工程,过去以租赁数据中心为主,为什么阿里现在要自己下场自建超级数据中心?

阿里云技术专家炽平:首先,我们是一家科技公司。大数据云计算的快速发展让世界变得互联,为生活更加便利的同时需要越来越多的计算能力,需要越来越多的数据中心和服务器,所以我们才会自建技术中心,确保数据的安全和可控。

张一甲:形象地描述一下,一个超级数据中心长什么样子?

阿里云技术专家炽平:主要由多栋数据中心机楼、配电楼和办公行政楼组成。规模庞大。在数据中心规模、算力、节能和智能化等方面实现全面升级。

张一甲:有一种说法是,今天的数据中心(IDC),正如十年前的云计算。你认同吗?

阿里云技术专家炽平:数据中心是云计算的底座,阿里自建超级数据中心,是为未来云计算的快速发展提供坚实的基础。

张一甲:这些系统和设备都是自研吗?

阿里云技术专家炽平:大部分是自研,其中包括方升——全球首个软硬融合一体化服务器架构;飞天——中国唯一自研的云操作系统;含光800——全球最强AI处理芯片。

张一甲:超级数据中心涉及到怎样的技术难题?

阿里云技术专家炽平: 随着超级数据中心的规模越来越大,能耗越来越高,所以节能环保的挑战成为核心面对的问题。预计2025年整个数据中心的用电量达到全国总用电的4%以上。

张一甲:如此大的消耗,阿里超级数据中心是如何做到节能环保的?

阿里云技术专家炽平:没错,跟以往数据中心不同,这些超级数据中心广泛使用了液冷、水冷、风能等节能技术,在服务数字经济的同时,还承担了绿色环保的社会责任。我们来看一个实验。

据说,这是因为用了一件秘密武器——全浸没式液冷服务器,使得评价数据中心能源效率PUE低至1.09。

张一甲:阿里自建数据中心,相比第三方IDC厂商,优势在哪?咱们的设备和传统IDC的区别在哪?

阿里云技术专家炽平:阿里巴巴的服务器都是IO接口卡前置的架构布局,与传统服务器相比,它把发热功率较大的光模块、GPU卡以及NVME盘等部件都布局在了服务器的前端,也就是冷风的入口处。这样布局的好处是为服务器散热的风扇可以工作在较低的转速下,风扇的功耗下降了30%以上,实现极致的散热效率。同时这些部件的更换和维护也都在冷风通道里操作,运维环境更友好。

第二个特点,紧密贴合业务场景,硬件模块化设计,实现灵活配置。比如这台存储服务器,得益于它搭载的阿里巴巴自研高性能SSD盘和自研存储网卡部件,并基于分布式系统的软硬件一体优化,打破传统SSD盘性能限制,实现了百万IOPS吞吐能力,缩短延迟,实现整机性能大幅提升,打造出面向各种存储场景的极致能力。

张一甲:企业和云服务提供商数据量的飞速增长。但现实的问题是,大部分信息量是不常访问的较旧的“冷”数据,对于冷数据,你们是怎么处理的?

阿里云技术专家炽平:针对冷数据的存储,阿里云智能领先业界打造RackScale级的软硬结合整机柜冷存储方案GlacierStore, 它采用了计算/存储分离的硬件架构,极致工程能力实现超高密度存储JBOD,率先采用最新存储硬件介质SMR HDD盘,订制Expander以及自主知识产权的冷存储软件,单机柜超高容量达到10PB,并高度可扩展,易运维部署。

张一甲:如果靠人力来保障运维,需要很大的投入。咱们的超级数据中心是怎么运维的呢?请阿里云技术专家康诺为我们解答一下。

阿里云技术专家康诺:传统数据中心,人力部署要7*24小时。现在偌大的数据中心,已经实现由自动化IT运维机器人运维。这是由阿里巴巴数据中心研发的高精度智能机器人,它可以4分钟内完成数据中心自动巡查、故障硬盘定位、更换硬盘,可替代人工操作,24小时待命,效率提升10倍,误操作为零。

平常超级数据中心配置1台运维机器人就可以协助人工完成工作,在几十万服务器里定位到故障硬盘然后更换掉,自动上下楼,自动开门等。

天巡机器人其实完全就像一个超级运维工程师,他有接近于人的触觉和嗅觉,在更换设备的时候他不像大家平常看到的工业机器人一样只能以固定路线做平移,而是会像人一样寻找插拔入口最准确的点,在误差不超过0.5毫米的情况下,准确完成设备的更换。

2月2日起,访问阿里云新云力量,看创新驱动数字经济发展。

「甲子光年」将以系列视频形式,让科技真正“可摸可见”。下一期超级探访,敬请期待。

END.
| 社群招募 |

亲爱的读者朋友们:

「甲子光年」为科技行业从业者组织了“科技产业高端社群”,以方便大家交换最新行业动态、行业洞察并链接上下游合作机会。

“科技产业高端社群”目前分为细分赛道社群和科技产业融合社群,其中包括人工智能、企业服务、智能制造、AI芯片等细分垂直领域交流群,以及创始人与高管、投资人、产业方交流群。

(0)

相关推荐