教学参考-47

教学目标

自2019年12月以来，新型冠状肺炎疫情蔓延全球，给世界各国人民健康带来巨大威胁，并严重阻碍了经济发展。
自疫情出现以来，大量人工智能学者投入到抗疫工作中，在疫情走向预测、抗疫政策效果分析、病例筛查等方面做出了重要贡献。本章介绍由MIT和哈弗大学在《科学》杂志发表的一项研究成果，用机器学习预测病毒传染性[2]。

新冠疫情之所以如此复杂，一个重要原因在于病毒会变异，变异后的变种病毒特性难以捉摸。到目前为止，我们熟知的变种已经有阿尔法（Alpha）、贝塔(Beta)、德尔塔（Delta）、奥米克绒（Omicron）等。事实上，这些仅是“闯出了名堂”的变种，那些没形成气候的变种已经有成千上万种。科学家们对这些变种进行了归类，并为每一类取了个名字，比如德尔塔病毒叫B.1.617.2，奥米克绒病毒叫B.1.1.529等。这一命名规则称为PANGO命名法。
MIT和哈弗的科学家们设计了一种称为“贝叶斯Logistic回归”的机器学习模型来预测不同类型新冠病毒的传染性。系统流程如右图如示。为说明方便，我们简称这一模型为M-H模型。
为构造M-H模型，科学家们首先从GISAID数据库中得到6,466,300条基因序列，涵盖1560个地区，32个时间段（2星期一个时间段）。对这些基因数据以PANGO命名为基础分成3000个类型。模型以基因序列的变异情况作为输入，同时将地区和时段作为条件变量，预测3000类病毒的传播速度。模型训练完成以后，可以得到每种病毒的增长率，也可以得到每个基因位变异的重要性。基于这些信息，科学家们可以做出很多重要预测。

研究者利用M-H模型对各个病毒变种的传播能力进行了研究。
首先看到，越是后来出现的变种，其传染性越强。2021年底出现的奥米克绒变种BA.1.1，其传染性（基础再生数R）已经是武汉变种的8倍，而其后出现的BA.2变种传染力进一步加强。越新的变种传染力越强，这是疫情到目前为止依然复杂的原因。
另外，研究者发现上述AI模型确实准确地预测出了几次较大规模的爆发式传播，如2020年底由Alpha(B.1.1.7)和Delta（B.1.617.2）变种引起的爆发。图中红色圆圈代表产生较大影响的变种。
M-H模型和传统基于流行病学的预测方法有很大不同。流行病学方法通过溯源传播路径来判断传染性，而M-H模型基于病毒的基因序列来预测它的传染性，显然可以更早发现疫情风险。

利用M-H模型，还可以定位病毒基因序列中对传染性影响最大的变异点。这是因为在模型设计时，科学家们为每个变异点都设计了一个显著值。在模型训练时对这些显著值进行学习，学习结束后，那些显著值较大的变异点就是对传染性影响较大的基因位置。