万亿次超算在太空幸存近一年:英特尔CPU还好,SSD故障率惊人 ……
假如有一天人类能够实现星际旅行,很多人都会想去火星看一看吧,去看看马特达蒙种的土豆是否还在,不过到火星需要航天器跑一年的时间,这么漫长的时间实在太无聊了,肯定要带上电脑打发时间的。那么计算机在太空中会发生什么变化呢?HPE(惠普企业)去年发射了一台超算到国际空间站上,已经运行了340天时间,这套系统运行状态还不错,处理器、缓存、内存遭遇了降速等问题,但还能运行,不过SSD硬盘的故障率惊人。
通常上太空的设备都是要使用特殊设计的,抗辐射是必须的,不过HP去年做了一个实验,使用SpaceX的CRS-12火箭向国际空间站运输了一台小型超算,没有做任何抗辐射措施,目的是检验地球上的设备在太空中的运行情况。
这台小型超算使用了两太惠普Apollo 英特尔X86处理器服务器组成,通过56Gbps网络连接,运行红帽Linux系统,性能约为1万亿次,算不上多强大的超算,毕竟只是用来验证的,而且在太空中宇航员也不能使用它,它只会运行预设好的性能测试程序,相当于在太空中无限循环负载测试。
Theregister报道称,HPE技术官及实验室联合负责人Mark Fernandez周三在旧金山举行的一次小组会议上公布了这台星际超算的情况,它现在已经在太空中运行了340天,差不多是地球到火星的旅行时间。
由于这台超算没有经过抗辐射强化,它只能依靠软件程序来防止性能下降,Mark Fernandez称之为“自主自我护理”,它会不断地检测运行状况,一旦侦测到任何潜在的硬件故障,那就会降低运行速度或者进入空闲模式,并且关闭电源。
Mark Fernandez表示“跑得快比跑得慢要好,跑得慢比关机要好,但关机也要比被损坏要好。”他说在这340多天里只有过两次事故,不过都是人为或者火警误报等原因,都是随机发生的。
最常见的故障都是非永久性的计算元件,如电源、内存、CPU缓存等,它们在太空中的故障率要比地球更上更频繁。根据Mark Fernandez所说,网络系统还好,但是SSD以惊人的速度发生故障。
如果HPE真的为了太空旅行建造超算,他们会考虑对它进行抗辐射设计。