教学参考-46

来自cslt Wiki
跳转至: 导航搜索

教学目标

  • 了解现代天文学的“大数据”现像,从而理解人工智能对天文学的重要性
  • 了解基于神经网络对望远镜进行检查的基本思路
  • 引导学生讨论人工智能还可以为天文学家做哪些事


教学内容

观察浩瀚星空

  • 我们头顶的天空已经被观测了几千年。最初人们用肉眼观察星星。后来,人们发明了望远镜,极大拓展了观测视野。为了得到更清晰的观测,人们甚至把望远镜送入了太空。
  • 为了探索更深远的宇宙,现代望远镜越来越庞大复杂。以射电望远镜为例,为了提高空间解析度和信号敏感性,望远镜的天线越来越大,甚至组成庞大的天线群来协同观测。例如,位于智利查南托高原的射电望远镜阿尔玛就包括66座天线,最大的天线直径达12米[1]。

天文数据“爆炸”

  • 这些大型观测设备每天都在瞭望星空,每时每刻都在产生海量数据。以中国天眼为例,每天产生的数据就高达150TB。这些数据中固然包含丰富的信息,但已经不是人用肉眼可以分析和理解的了。或者说,当下的天文学研究已经进入了大数据时代,必须有相对应的研究工具才能从这些海量数据中发现有价值的线索,而这正是机器学习所擅长的。
  • 归因于此,近年来机器学习在天文学研究中异军突起,特别是深度学习方法,因其强大的数据学习能力受到青睐,广泛应用在光谱分析,新星检测,星系归类等任务中。

望远镜体检

  • 对于一个大型望远镜或望远镜组来说,每天采集到的数据实在是太多了,多到连望远镜工作异常都不容易发现。这就带来一个非常严重的问题,如果连仪器是否正常工作都不知道,如何保证能得到的数据是可信的,又如何依赖这些数据去理解天文学现象呢?
  • 因此,天文学家们迫切需要一种给望远镜“体检”的方案,监测望远镜的工作状态。


AI帮助天文学家给望远镜体检

  • 2020年3月,荷兰科学家在英国皇家天文学会月刊上发表了一篇文章,提出利用一种基于机器学习的望远镜状态监测方法。他们设计了一个称为变分自编码器(Variational Auto Encoder, VAE)的神经网络,将望远镜观察到的高维天文数据投影到一个二维空间,如果设备发生异常,数据将在这个二维空间中产生偏移,这样就能及早发现问题。
  • 首先从观察数据中提取出幅度谱和相位谱,将他们同时送入编码器,通过一系列变换,得到一个二维空间中的嵌入向量(Embedding),再经过一个解码器还原出原始幅度谱和相位谱。由于嵌入向量只有二维,这一训练将迫使嵌入向量尽可能保留输入数据中的重要信息。正因为如此,这些嵌入向量可以充分代表数据的特征,当数据出现异常时,嵌入向量会发生显著变化。


模拟数据结果

  • 科学家们首先设计了一个模拟实现来验证VAE方法的有效性。他们设计了很多异常数据,如射电频域干扰或高斯噪声等,将这些异常数据映射成二维嵌入向量。
  • 将这嵌入向量表示在二维空间中的分布,其中每种颜色代表一种异常。不同异常状态可以清晰地反映在嵌入向量组成的二维空间中。反过来,通过观察这一空间即可定位可能出现的数据异常。

真实数据结果

  • 科学家们随后在一个名为LOFAR的实际数据集上进行了实验,将数据通过VAE映射成二维嵌入向量。
  • 可以看到,不同模式的数据被映射到了二维空间中的不同位置,而同一位置的数据具有相似的模式,包括各种异常和干扰。这一结果表明该方法确实可以为天文学家提供一种直观的工具,不仅可以监视设备运行的状态,还可能有更多有价值的应用。