教学参考-47
来自cslt Wiki
教学目标
- 了解人工智能面对新冠疫情所做贡献
- 了解基于机器学习方法预测新冠病毒的基本思路
- 引导学生思考面对人类共同危险的时候应具有的求实、合作、开放的态度
教学内容
新冠疫情
- 自2019年12月以来,新型冠状肺炎疫情蔓延全球,给世界各国人民健康带来巨大威胁,并严重阻碍了经济发展。
- 自疫情出现以来,大量人工智能学者投入到抗疫工作中,在疫情走向预测、抗疫政策效果分析、病例筛查等方面做出了重要贡献。本章介绍由MIT和哈弗大学在《科学》杂志发表的一项研究成果,用机器学习预测病毒传染性[2]。
学习新冠病毒的AI
- 新冠疫情之所以如此复杂,一个重要原因在于病毒会变异,变异后的变种病毒特性难以捉摸。到目前为止,我们熟知的变种已经有阿尔法(Alpha)、贝塔(Beta)、 德尔塔(Delta)、奥米克绒(Omicron)等。事实上,这些仅是“闯出了名堂”的变种,那些没形成气候的变种已经有成千上万种。科学家们对这些变种进行了归类,并为每一类取了个名字,比如德尔塔病毒叫B.1.617.2,奥米克绒病毒叫B.1.1.529等。这一命名规则称为PANGO命名法。
- MIT和哈弗的科学家们设计了一种称为“贝叶斯Logistic回归”的机器学习模型来预测不同类型新冠病毒的传染性。系统流程如右图如示。为说明方便,我们简称这一模型为M-H模型。
- 为构造M-H模型,科学家们首先从GISAID数据库中得到6,466,300条基因序列,涵盖1560个地区,32个时间段(2星期一个时间段)。对这些基因数据以PANGO命名为基础分成3000个类型。模型以基因序列的变异情况作为输入,同时将地区和时段作为条件变量,预测3000类病毒的传播速度。模型训练完成以后,可以得到每种病毒的增长率,也可以得到每个基因位变异的重要性。基于这些信息,科学家们可以做出很多重要预测。
预测不同类型病毒的传播能力
- 研究者利用M-H模型对各个病毒变种的传播能力进行了研究。
- 首先看到,越是后来出现的变种,其传染性越强。2021年底出现的奥米克绒变种BA.1.1,其传染性(基础再生数R)已经是武汉变种的8倍,而其后出现的BA.2变种传染力进一步加强。越新的变种传染力越强,这是疫情到目前为止依然复杂的原因。
- 另外,研究者发现上述AI模型确实准确地预测出了几次较大规模的爆发式传播,如2020年底由Alpha(B.1.1.7)和Delta(B.1.617.2)变种引起的爆发。图中红色圆圈代表产生较大影响的变种。
- M-H模型和传统基于流行病学的预测方法有很大不同。流行病学方法通过溯源传播路径来判断传染性,而M-H模型基于病毒的基因序列来预测它的传染性,显然可以更早发现疫情风险。
定位显著变异点
- 利用M-H模型,还可以定位病毒基因序列中对传染性影响最大的变异点。这是因为在模型设计时,科学家们为每个变异点都设计了一个显著值。在模型训练时对这些显著值进行学习,学习结束后,那些显著值较大的变异点就是对传染性影响较大的基因位置。