教学参考-46

来自cslt Wiki

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

了解现代天文学的“大数据”现像，从而理解人工智能对天文学的重要性
了解基于神经网络对望远镜进行检查的基本思路
引导学生讨论人工智能还可以为天文学家做哪些事

教学内容

观察浩瀚星空

我们头顶的天空已经被观测了几千年。最初人们用肉眼观察星星。后来，人们发明了望远镜，极大拓展了观测视野。为了得到更清晰的观测，人们甚至把望远镜送入了太空。
为了探索更深远的宇宙，现代望远镜越来越庞大复杂。以射电望远镜为例，为了提高空间解析度和信号敏感性，望远镜的天线越来越大，甚至组成庞大的天线群来协同观测。例如，位于智利查南托高原的射电望远镜阿尔玛就包括66座天线，最大的天线直径达12米[1]。

天文数据“爆炸”

这些大型观测设备每天都在瞭望星空，每时每刻都在产生海量数据。以中国天眼为例，每天产生的数据就高达150TB。这些数据中固然包含丰富的信息，但已经不是人用肉眼可以分析和理解的了。或者说，当下的天文学研究已经进入了大数据时代，必须有相对应的研究工具才能从这些海量数据中发现有价值的线索，而这正是机器学习所擅长的。
归因于此，近年来机器学习在天文学研究中异军突起，特别是深度学习方法，因其强大的数据学习能力受到青睐，广泛应用在光谱分析，新星检测，星系归类等任务中。

望远镜体检

对于一个大型望远镜或望远镜组来说，每天采集到的数据实在是太多了，多到连望远镜工作异常都不容易发现。这就带来一个非常严重的问题，如果连仪器是否正常工作都不知道，如何保证能得到的数据是可信的，又如何依赖这些数据去理解天文学现象呢？
因此，天文学家们迫切需要一种给望远镜“体检”的方案，监测望远镜的工作状态。

AI帮助天文学家给望远镜体检

2020年3月，荷兰科学家在英国皇家天文学会月刊上发表了一篇文章，提出利用一种基于机器学习的望远镜状态监测方法。他们设计了一个称为变分自编码器（Variational Auto Encoder, VAE）的神经网络，将望远镜观察到的高维天文数据投影到一个二维空间，如果设备发生异常，数据将在这个二维空间中产生偏移，这样就能及早发现问题。
首先从观察数据中提取出幅度谱和相位谱，将他们同时送入编码器，通过一系列变换，得到一个二维空间中的嵌入向量（Embedding），再经过一个解码器还原出原始幅度谱和相位谱。由于嵌入向量只有二维，这一训练将迫使嵌入向量尽可能保留输入数据中的重要信息。正因为如此，这些嵌入向量可以充分代表数据的特征，当数据出现异常时，嵌入向量会发生显著变化。

模拟数据结果

科学家们首先设计了一个模拟实现来验证VAE方法的有效性。他们设计了很多异常数据，如射电频域干扰或高斯噪声等，将这些异常数据映射成二维嵌入向量。
将这嵌入向量表示在二维空间中的分布，其中每种颜色代表一种异常。不同异常状态可以清晰地反映在嵌入向量组成的二维空间中。反过来，通过观察这一空间即可定位可能出现的数据异常。

真实数据结果

科学家们随后在一个名为LOFAR的实际数据集上进行了实验，将数据通过VAE映射成二维嵌入向量。
可以看到，不同模式的数据被映射到了二维空间中的不同位置，而同一位置的数据具有相似的模式，包括各种异常和干扰。这一结果表明该方法确实可以为天文学家提供一种直观的工具，不仅可以监视设备运行的状态，还可能有更多有价值的应用。

取自“http://index.cslt.org/mediawiki/index.php?title=教学参考-46&oldid=39198”