太空探索，PB级海量数据怎么处理？ / 开普饭

天文学家正着手运用AI技术构建新工具，希望在太空探索中获得新的重大突破。

来源丨TheNextWeb

编译丨科技行者

天文学的核心在于数据。随着我们对宇宙的理解愈发深邃，我们掌握的信息也越来越丰富。而下一代天文学研究的核心挑战，就在于如何充分研究我们收集到的这些数据。

为了应对这些挑战，天文学家们开始转向机器学习与人工智能(AI)，希望借此构建新工具并快速寻求新的重大突破。而AI科技也正通过以下四种方式为天文学家提供助力。

1、发现星球

发现一颗行星可以通过多种方式，但成功率最高的靠谱方法还是对凌日现象的研究。所谓凌日，就是当某颗系外行星从其绕行的恒星前面经过时，必然会阻挡到我们所能观察到的光。

通过观察系外行星的不同轨道，天文学家们构建起凌日图像，并借此识别目标行星的实际特性——例如其质量、大小以及与恒星间的距离。NASA的开普勒太空望远镜就利用这项技术取得了巨大成功，能够同时观测数千颗恒星并密切关注各自行星产生的凌日现象。

当行星运行至所围绕恒星前面时，我们会看到光线减弱，这就是所谓凌日现象。

天文学家能够准确观测到凌日现象，但相关技能需要一定时间进行培养。随着人们越来越多地致力于寻求新的系外行星，单凭人力已经很难跟上NASA过境系外行星调查卫星的捕捉速度。在这方面，AI技术正好有机会大显身手。

将时序分析技术——将数据作为时间序列进行分析——与AI技术相结合，能够以高达96%的准确率成功识别系外行星信号。

2、引力波

时序模型不仅适用于寻找系外行星，同时也能有效跟踪到宇宙中最具破坏力的灾难性信号——黑洞或中子星的坍缩。

当这些密度极大的天体内陷收缩时，会在时空当中产生巨大的引力涟漪，人类则可通过测量地球上出现的微弱信号检测到这些涟漪。引力波探测器合作公司Ligo及Virgo已经在机器学习的帮助下，成功识别出数十次这类事件的发生。

借助黑洞坍缩模拟数据训练出的模型，Ligo和Virgo团队能够在事件发生的瞬间将其发现，并向世界各地的天文学家们发出通报，引导他们及时将望远镜指向正确的方位。

3、多变的天空

目前智利正着力建造的维拉鲁宾天文台一旦正式上线，将能够每晚测量整个夜空并一次性收集超过80TB的图像数据，全面观测宇宙中各恒星及星系如何随时间而变化。顺带一提，1TB代表8,000,000,000,000比特。

根据运营计划，未来维拉鲁宾天文台将收集并处理高达数百PB规模的数据。作为参考，Facebook上全部图像存储所占的全部空间约为100PB，换算成全高清视频长度约为700年。

很明显，如此庞大的数据总量恐怕无法登录服务器进行下载;即使下载完成，也无法快速完成内容查找。

机器学习技术将帮助我们搜索数据内容并凸显其中的重要信息。例如，算法可能会在图像中搜索到罕见事件，例如超新星爆发(即恒星生命周期结束时产生的剧烈爆炸)，或者寻找到新的类星体。通过训练计算机识别出特定天文现象的对应信号，该团队希望能更高效地将正确数据交付给正确的研究人员。

4、引力透镜

随着我们收集到的宇宙数据越来越多，研究人员有时候被迫整理并丢弃掉一部分无用的数据。那么，我们该如何甄别哪些数据有价值、哪些信息可以直接清退?

目前众多天文学家都高度关注着一种重要天体现象——强引力透镜。具体来讲，当两个星系沿着我们的视频排列时，距我们较近星系的引力就会发挥引力透镜作用，对较远星系的活动进行放大——由此产生包括环状、十字及重影图像。

但要找到这些图像如同大海捞针——在这片可预测宇宙的海洋中寻找宝贵的一瞬。我们收集到的星系图像越多，搜索难度也将随之攀升。

2018年，来自世界各地的天文学家们共同参与一项强引力透镜挑战赛，各方开展激烈竞争、希望看看谁能设计出自动找到这类透镜的最佳算法。

这项挑战的获胜者采用一种名为卷积神经网络的模型，该模型会学习使用不同的过滤器拆分图像内容，直到准确将其分类为是否包含透镜效应。令人惊奇的是，这些模型甚至比人类表现还要好，神经网络确实能够发现人类难以留意的某些图像细节与微小差异。

在未来十年当中，天文学家将使用维拉鲁宾天文台等新仪器收集数以PB计的数据，即数千TB。随着我们探索宇宙的脚步不断迈进，机器学习技术也将成为天文学家们研究工作中必不可少的重要依托。

太空探索，PB级海量数据怎么处理？