AdobeStock_394203328.jpeg
VoxEU 新型冠状病毒肺炎

测试COVID-19预测的预测准确性

预测流行病的演变对决策者和医疗保健提供者至关重要。本专栏审查了由几个独立预测团队编制并由美国疾病控制和预防中心收集的COVID-19死亡预测的预测准确性。作者发现,预测者在较长时间内(三到四周)比简单的基准模型更成功。综合所有预报的综合预报是表现最好的预报之一。

对于政策制定者和医疗保健提供者来说,预测流行病的演变极其重要(Manski 2020, Castle等人,2020)。需要及时和可靠的预测,以协助卫生当局和整个社区应对感染激增,并为公共卫生干预措施提供信息,例如执行(或促进)地方或国家封锁(Heap等人,2020年)。美国疾病控制和预防中心(CDC)收集了各独立机构和研究团队对COVID-19大流行演变的每周预测。1这些预测旨在通过预测COVID-19大流行长达四周的影响,为公共卫生干预的决策过程提供信息。然而,如此丰富的预测也带来了一个问题:面对不同的预测时如何采取行动,特别是如何选择最可靠的预测。

预测团队、方法和假设

预测团队包括数据科学家、流行病学家和统计学家。他们使用不同的方法和方法(例如易感暴露-感染-康复(SEIR)、贝叶斯和深度学习模型),并结合一系列关于非药物干预措施对流行病传播影响的数据来源和假设(例如社交距离和使用口罩)。在表1中,我们报告了自大流行开始以来连续提交2020年6月20日至2021年3月20日预测的8个团队。

表1预测团队、方法和假设

笔记:列代码描述了实证分析中给出给每个团队的代码。如果一个预测团队提交了样本中所有周的预测,那么它就包括在内。该表为每个预测小组报告了建模方法,以及模型是否考虑了政策干预假设的变化。在第四栏中,“是”意味着建模团队对未来社会距离水平将如何变化做出假设,而“否”意味着假设现有措施将在预计的4周时间内继续实施。

我们将表1中的预测团队视为单独的预测者,我们还将他们合并为汇总的预测平均值(具有相同的权重),我们称之为“核心集合”。最后,我们还考虑了由CDC产生的集合预测,它是由更广泛的预测团队组合得到的

我们的预测评价试验

通常用于比较相同预测准确性的标准检验是Diebold和Mariano(1995)检验(以下简称DM检验)。DM检验是最适合从无模型角度比较相互竞争的预测的检验,就像在这个应用程序中一样。当可以获得长期的预测历史时,这种方法非常有效。然而,当只有少量样本外观测值可用时,实现DM检验是具有挑战性的。因为在这种情况下,大的尺寸失真使测试不可靠。为了克服这个小样本问题,我们应用了Coroneo和Iacone(2020)提出的固定平滑渐近。这种方法能够准确地实现DM检验,即使可用的样本外观测数量很小。

实证分析

我们评估了从2020年6月20日至2021年3月20日期间连续向美国疾病控制与预防中心提交预测的8个预测团队对美国国家一级COVID-19死亡总数的预测。尽管评估期只包括40个观测值,但我们发现2020年11月预测误差的波动性有所增加。因此,我们分别对2020年6月20日至2020年10月31日和2020年11月7日至2021年3月20日这两个子样本进行了预测评估。图1说明了每个模型的预测误差(计算为实现和点预测之间的差值)。它表明,大多数预测团队系统性地低估了这个数字,尤其是在样本的第二部分。当然,如果过度预测和不足预测的成本不同,这是相关的。

图1预估错误

请注意:预测范围为1至4周的预测误差。2020年6月20日至2021年3月20日的每周观测数据。垂直线表示2020年11月3日,并划分了两个子样本。预测团队名称如表1所示;EN为集合预报,CE为核心集合,PO为多项式基准。预测误差的定义是实现值减去预测值。

我们将表1中八个团队提供的预测和两个集合预测的预测精度与使用前五个可用观测值的滚动窗口拟合二阶多项式构建的简单基准模型的预测精度进行了比较(Coroneo et al. 2021)。

图2和图3报告了同等预测准确性的测试结果。我们应用Diebold和Mariano检验(1995),使用固定-b渐近,如Coroneo和Iacone(2020),并考虑不同的损失函数:均方误差(MSE),平均绝对误差(MAE),平均绝对百分比误差(MAPE)和线性指数(linex)损失函数。检验统计量的正值表明预测团队相对于基准多项式模型的性能更好。

图2加权协方差估计的预测评价:第一个评价子样本

请注意:该图报告了使用长期方差和固定渐近的加权协方差估计器(WCE)进行等预测准确性检验的检验统计量。基准是在5个观测值的滚动窗口上拟合的二次多项式模型。检验统计量的正值表示预测器的损失较低,即预测器相对于多项式模型的性能更好。用不同的标记报告不同的损失函数:加号表示二次损失函数,菱形表示绝对损失函数,填圆表示绝对百分比损失函数,空圆表示非对称损失函数。虚线、虚线和连续的红色水平线分别表示20%、10%和5%显著性水平。预测范围是提前1、2、3和4周。评估样本为2020年6月20日- 10月31日。

图3加权协方差估计的预测评价:第二评价子样本

请注意:该图报告了使用长期方差和固定渐近的加权协方差估计器(WCE)进行等预测准确性检验的检验统计量。基准是在5个观测值的滚动窗口上拟合的二次多项式模型。检验统计量的正值表示预测器的损失较低,即预测器相对于多项式模型的性能更好。用不同的标记报告不同的损失函数:加号表示二次损失函数,菱形表示绝对损失函数,填圆表示绝对百分比损失函数,空圆表示非对称损失函数。虚线、虚线和连续的红色水平线分别表示20%、10%和5%显著性水平。预测范围是提前1、2、3和4周。评估样本为2020年11月7日至2021年3月20日。

我们的主要发现如下。首先,尽管简单多项式基准在短期内(提前一周)优于预测者,但预测者在长期内(提前三到四周)更具竞争力。它们有时优于基准,从而证实了流行病建模的重要性。这表明,预测可以帮助成功地为未来的政策决策提供信息。其次,集合预测是表现最好的预测之一,特别是在第一个子样本中。总体预测的可靠性强调了在不确定性普遍存在时模型平均的优点,并支持Manski(2020)的观点,即数据和建模的不确定性限制了我们使用一组紧凑模型预测替代政策影响的能力。总的来说,我们的研究结果适用于考虑的所有损失函数,并提醒卫生当局不要依赖单一的预测团队(或一个小集合)来预测大流行的演变。一个更好的策略似乎是收集尽可能多的预测,并使用集合预测。

结论

我们的实证分析表明,对COVID-19疫情的预测很有价值,但需要谨慎使用。决策者不应依赖单一的预测团队(或一小组)来预测大流行的演变,而应持有大量和多样化的预测组合。

参考文献

Castle, J, J A Doornik和D Hendry(2020),”冠状病毒大流行短期预测, VoxEU.org, 4月24日。

Coroneo, L和F Iacone(2020),“使用固定平滑渐近比较小样本中的预测准确性”,应用计量经济学杂志35(4): 391 - 409。

Coroneo, L, F Iacone, A Paccagnini和P S Monteiro(2021),“测试COVID-19预测的预测准确性”,国际预测杂志,即将到来。

Diebold, F X,和R S Mariano(1995),“比较预测精度”,商业与经济统计杂志20(1): 134 - 144。

希普,S P H, C Koop, K Matakos, A Unan和N Weber(2020),”评估健康与财富:信息的影响及其对COVID-19政策制定的影响, VoxEU.org, 6月6日。

Manski, C F(2020),”COVID-19政策的适应性多样化, VoxEU.org, 6月12日。

Manski, C F(2020),“在不确定性下形成covid-19政策”,效益成本分析杂志11(3): 341 - 356。

尾注

1https://www.cdc.gov/coronavirus/2019-ncov/science/forecasting/forecasting-us.html

2因为它也包括那些没有每周提交预测的团队。

945年读

Baidu
map