太空探索,PB级海量数据怎么处理?
天文学的核心在于数据。随着我们对宇宙的理解愈发深邃,我们掌握的信息也越来越丰富。而下一代天文学研究的核心挑战,就在于如何充分研究我们收集到的这些数据。
为了应对这些挑战,天文学家们开始转向机器学习与人工智能(AI),希望借此构建新工具并快速寻求新的重大突破。而AI科技也正通过以下四种方式为天文学家提供助力。
1、发现星球
发现一颗行星可以通过多种方式,但成功率最高的靠谱方法还是对凌日现象的研究。所谓凌日,就是当某颗系外行星从其绕行的恒星前面经过时,必然会阻挡到我们所能观察到的光。
通过观察系外行星的不同轨道,天文学家们构建起凌日图像,并借此识别目标行星的实际特性——例如其质量、大小以及与恒星间的距离。NASA的开普勒太空望远镜就利用这项技术取得了巨大成功,能够同时观测数千颗恒星并密切关注各自行星产生的凌日现象。
当行星运行至所围绕恒星前面时,我们会看到光线减弱,这就是所谓凌日现象。
天文学家能够准确观测到凌日现象,但相关技能需要一定时间进行培养。随着人们越来越多地致力于寻求新的系外行星,单凭人力已经很难跟上NASA过境系外行星调查卫星的捕捉速度。在这方面,AI技术正好有机会大显身手。
将时序分析技术——将数据作为时间序列进行分析——与AI技术相结合,能够以高达96%的准确率成功识别系外行星信号。
2、引力波
时序模型不仅适用于寻找系外行星,同时也能有效跟踪到宇宙中最具破坏力的灾难性信号——黑洞或中子星的坍缩。
当这些密度极大的天体内陷收缩时,会在时空当中产生巨大的引力涟漪,人类则可通过测量地球上出现的微弱信号检测到这些涟漪。引力波探测器合作公司Ligo及Virgo已经在机器学习的帮助下,成功识别出数十次这类事件的发生。
借助黑洞坍缩模拟数据训练出的模型,Ligo和Virgo团队能够在事件发生的瞬间将其发现,并向世界各地的天文学家们发出通报,引导他们及时将望远镜指向正确的方位。
3、多变的天空
目前智利正着力建造的维拉鲁宾天文台一旦正式上线,将能够每晚测量整个夜空并一次性收集超过80TB的图像数据,全面观测宇宙中各恒星及星系如何随时间而变化。顺带一提,1TB代表8,000,000,000,000比特。
根据运营计划,未来维拉鲁宾天文台将收集并处理高达数百PB规模的数据。作为参考,Facebook上全部图像存储所占的全部空间约为100PB,换算成全高清视频长度约为700年。
很明显,如此庞大的数据总量恐怕无法登录服务器进行下载;即使下载完成,也无法快速完成内容查找。
机器学习技术将帮助我们搜索数据内容并凸显其中的重要信息。例如,算法可能会在图像中搜索到罕见事件,例如超新星爆发(即恒星生命周期结束时产生的剧烈爆炸),或者寻找到新的类星体。通过训练计算机识别出特定天文现象的对应信号,该团队希望能更高效地将正确数据交付给正确的研究人员。
4、引力透镜
随着我们收集到的宇宙数据越来越多,研究人员有时候被迫整理并丢弃掉一部分无用的数据。那么,我们该如何甄别哪些数据有价值、哪些信息可以直接清退?
目前众多天文学家都高度关注着一种重要天体现象——强引力透镜。具体来讲,当两个星系沿着我们的视频排列时,距我们较近星系的引力就会发挥引力透镜作用,对较远星系的活动进行放大——由此产生包括环状、十字及重影图像。
但要找到这些图像如同大海捞针——在这片可预测宇宙的海洋中寻找宝贵的一瞬。我们收集到的星系图像越多,搜索难度也将随之攀升。
2018年,来自世界各地的天文学家们共同参与一项强引力透镜挑战赛,各方开展激烈竞争、希望看看谁能设计出自动找到这类透镜的最佳算法。
这项挑战的获胜者采用一种名为卷积神经网络的模型,该模型会学习使用不同的过滤器拆分图像内容,直到准确将其分类为是否包含透镜效应。令人惊奇的是,这些模型甚至比人类表现还要好,神经网络确实能够发现人类难以留意的某些图像细节与微小差异。
在未来十年当中,天文学家将使用维拉鲁宾天文台等新仪器收集数以PB计的数据,即数千TB。随着我们探索宇宙的脚步不断迈进,机器学习技术也将成为天文学家们研究工作中必不可少的重要依托。