十年,他们在云上修了一条“高速公路”
互联网诞生至今,网络世界到底被谁主导?
《达芬奇密码》给出的答案是,整个互联网由十四个手中掌握七把受严密保护的钥匙的人保护着。
所谓“钥匙”,是为保护网站和计算机分配IP地址的DNS进入权限,如果这个权限被一个人获得,他就能主导整个互联网。
现实中,这个掌握钥匙的组织就是ICANN(互联网名称与数字地址分配机构),它的存在确实关系着互联网世界的稳定、开放与唯一性。
但这仅仅是小说或者电影的思维。现实世界中,为人们网上冲浪提供基础设施的,主要是网络运营商与设备厂商。
网络领域很长一段时间都没有新鲜事物,无论是产品还是创业公司,都鲜有新鲜面孔。
直到十多年前云计算诞生,一些新厂商投身网络领域搞自研,这个领域才有了新景象。云网络开始扮演越来越重要的角色。
在今年尤为明显。年初,新冠疫情爆发,国家按下“新基建”的快进键。
云计算作为新基建的核心环节,是互联网、大数据、人工智能等新技术的关键底座。云网络,作为云计算的标配,则是新基建的底座。
中国的云网络担得起吗?
缘起:网络高速来了“调度员”
故事还得从阿里云的成立说起。
2009年春节后,一群阿里云的年轻人在北京上地汇众大厦一间快要废弃的远程桌面办公室里,写下了阿里云计算操作系统“飞天”的第一行代码,开启了中国云计算的新篇章。
一年半后,阿里云发布了第一个商业化的产品-云服务器ECS,逐步迈向公共云服务。
原CSDN与《程序员》杂志总编刘江曾在《阿里云观察——阿里云总裁王坚专访》一文中写道:ECS的上线,让许多得风气之先的中小开发公司兴奋不已。之前他们可以选择的后端,要么是国内IDC服务器托管,运维压力如山大;要么是国外的云服务,又不得不忍受网络的龟速。
阿里云的ECS让他们看到了国产云的希望。但在此之前,阿里云自己先要解决好网速问题。
2010年,阿里云用x86服务器搭载软件的方式,开发出第一款云网络产品——负载均衡SLB(Server Load Balancer),对网络流量(网络上传输的数据量)进行均衡分发。
SLB就像网络高速的“调度员”,为了提高信息传输效率,SLB可以分配和调度“车辆”(比特)从不同的路径和出口进行传输。当大量的数据流量来袭时,有了SLB,网络就不容易产生拥堵。
设想很美好,但早期的SLB性能并不稳定。早期,工程师们将精力主要放在了技术研发上,开发出软件,先让云平台运行起来;缺乏对外服务经验,出现了不少服务质量问题。
这导致看工单、接工单、处理工单,以及频繁出席赔情道歉会,成了SLB第一任产品经理李肆的工作日常。
他记忆最深刻的一次道歉会是阿里云创始人王坚亲自主持下进行的,那是个周六,在西湖国际——阿里云在杭州最初的办公室里,知名开发者社区“博客园”等客户出席。
后来,王坚让阿里云的同事把“博客园”中记录阿里云产品问题的100多篇博客印成书,取名为《进步集》,要求阿里云的工程师们通读。
内有《进步集》的鞭策,外部有“云计算究竟能不能把网络这件事做好”的质疑。顶着巨大的压力,SLB团队不断地提升其服务稳定性。
一封邮件引发的“修路”革命
但留给阿里云自我革新的时间不多了。
从2012年底开始,微软、亚马逊、IBM等国际巨头陆续登陆中国,云计算市场俨然已呈红海状态。
与此同时,阿里云内部的“技术隐患”开始浮现。
2012年底的阿里云技术规划会上,有人指出了阿里云的潜藏危机:
随着虚拟化技术的不断发展,一台物理机可以虚拟出的虚拟机比例将从1:10提升到1:30、1:50,也就是1000台物理机虚拟出的虚拟机数量将从1万台变成3万台、5万台。
虚拟比上升,网络中用于记录虚拟机地址的ARP表上的数据,也会变为原来的3到5倍。如果存放ARP表数据的交换机供应不足,虚拟机的迁移就会受到限制。
一旦虚拟机宕机,用户/客户业务受影响,阿里云的口碑将遭遇“滑铁卢”,最终导致阿里云面临无法售卖ECS的危机。而ECS是阿里云安身立命的根本。这是一个由云计算发展导致的连锁变化。
与此同时,随着虚拟化网络的规模扩大,ARP欺骗、广播风暴、主机扫描等多个问题会越来越严重,这都会对网络安全造成威胁。
有人将这些隐患写进邮件,发送给高层。江鹤(阿里云网络产品线现任负责人)遂被指派去调研这些问题,并找出解决方案。
2013年年初,江鹤就带着四位工程师接手这个任务,展开调查。
果不其然,当他们将诉求转给“头牌”交换机供应商思科时,对方的答复是:无法提供能够存储如此大规格ARP表的交换机。思科是当时全球最大的网络设备厂商。这意味着,他们在全世界范围内也买不到想要的交换机了。
一番考量后,江鹤决定另辟蹊径,在地面高速公路上方修建一条“云高速”,并在“云高速”上开辟不同的“隧道”。