VoxEU 经济研究前沿

样本外预测检验有多好?

样本外预测检验越来越多地被用于建立宏观经济模型的质量。本专栏讨论了最近的研究,这些研究评估了这些测试可以建立什么宏观经济模型的规范和预测能力。通过对一个广泛使用的宏观经济模型进行蒙特卡洛实验,作者发现样本外预测检验对错误规范和预测性能的抑制能力较弱。然而,样本内间接推理检验可以可靠地建立模型的规范质量和预测能力。

宏观经济模型在经验准确性方面名声不佳。宏观经济学被广泛批评(如Hansen和Heckman 1996),认为它是主观的,在现有数据不足的情况下无法检验;因此,宏观经济学家基于他们自己的信念建立了高度抽象的动态随机一般均衡(DSGE)模型,要么施加校准的参数,要么通过贝叶斯方法对数据施加这些信念进行估计。此外,比较风格化事实与模型模拟的广泛使用的实践并不是基于适当的统计分布。

因此,人们一直在寻找用数据检验宏观经济模型的有效方法,这并不奇怪。其中一种方法是“样本外预测”(OSF)检验。最近,Refet Gürkaynak和几位合作者(Edge和Gürkaynak, 2010, Gürkaynak等人,2013)投入了大量精力以这种方式测试DSGE模型。他的方法是建立各种不受限制的时间序列模型,看看DSGE模型是否能比这些模型预测得更好或更糟;其理念是通过对数据施加明确规定的限制来提高预测效率。因此,一个出色的DSGE模型必须包含一些提供这些限制的良好理论。在他们的工作中,Gürkaynak和他的合作者发现了复杂的结果。在某些情节中,有些模型比一些时间序列模型表现得更好,而有些则更差。所有剧集的长度都是有限的,小样本也是如此。

新证据

在最近的工作中,我和徐永登(Yongdeng Xu)、周鹏(Peng Zhou)提出了一个问题:这些测试告诉我们DSGE模型的质量如何(Minford[RB1] et al. 2014)?模型的两个特性与决策者等用户相关:

  • 模型的规范(与判断策略更改的效果相关)有多好?
  • 该模型的预测效果如何(与对预测的广泛需求相关)?

我们用广泛使用的DSGE模型——Smets和Wouters(2007)模型(基于Christiano et al. 2005)——进行蒙特卡洛实验来回答这个问题;实验假设这个模型是正确的,其中包含一些来自美国数据的错误过程,并由此生成许多在这些测试中使用的大小的数据样本。然后,我们与不受限制的时间序列模型(我们使用最通用的VAR模型)相比,检查渐进式虚假模型在对这些数据样本进行预测测试时的表现。我们希望知道OSF测试如何识别一个模型是否具有良好的规范(即不太假)和系统良好的预测性能。

这样的实验总是有可能用不同的假设模型得出不同的结论——这是未来研究的任务。然而,在这些练习中使用的DSGE模型几乎都是Smets和Wouters结构,所以它不应该对迄今为止所做的大部分OSF测试产生误导。

模型规格的OSF测试

表1总结了我们发现的关于OSF测试识别不良规格的能力。

  • 该表格显示了当模型的虚假度增加到x%时,测试以95%的置信度拒绝模型的频率——这显示了测试对不断增加的模型错误规范的抑制能力。
  • 为了创建假性,模型的参数都以+/-x%交替更改。
  • 这个测试是针对GDP增长、通货膨胀和利率进行的。

相关栏目是最后两个为联合表现的三个一起。有两个预测范围:未来4个季度(第4季度)和8个季度(第8季度)。我们主要关注4Q,因为8Q的功率非常弱。就连我们看到的4Q的功率也很低;当虚假程度上升到10%时,拒绝率只会上升到三分之一以上。

表1.OSF测试的功率

国内生产总值增长 通货膨胀 利率 关节3
% F 4问 8问 % F 4问 8问 % F 4问 8问 % F 4问 8问
真正的 5.0 5.0 真正的 5.0 5.0 真正的 5.0 5.0 真正的 5.0 5.0
1 10.2 5.0 1 5.8 4.7 1 4.7 4.8 1 6.0 4.9
3. 23.2 5.0 3. 7.9 4.8 3. 6.5 4.2 3. 9.4 5.2
5 34.9 5.2 5 13.4 5.1 5 11.5 4.2 5 15.3 6.0
7 42.5 5.1 7 21.3 6.9 7 18.9 5.4 7 22.9 6
10 52.3 5.5 10 35.6 10.7 10 30.3 6.5 10 36.2 9.8
15 58.0 11.0 15 62.7 23.7 15 48.9 11.9 15 73.8 29.5
20. 49.9 60.5 20. 97.8 72.4 20. 62.7 21.3 20. 99.8 90.7

这告诉我们,OSF测试不能可靠地识别出不良模型;这是一个较弱的规范测试。表2显示了它与样本内间接推理检验的有效性,Le等人(2014)发现该检验非常有效——当误报率仅为3%时,该检验拒绝超过一半。该测试基于模型的模拟,并询问模拟数据的行为是否与样本中的实际数据相同,并具有一定程度的统计可信度。

表2.拒绝率:3个变量的间接推断和似然比

关节3
% misspecified 市正无穷。 4问 8问
真正的 5.0 5.0 5.0
1 19.8 6.0 4.9
3. 52.1 9.4 5.2
5 87.3 15.3 6.0
7 99.4 22.9 6.6
10 100.0 36.2 9.8
15 100.0 73.8 29.5
20. 100.0 99.8 90.7

为什么OSF测试的威力如此之弱?在预测中,DSGE模型使用拟合误差,当模型错误指定时,会产生更大的误差,吸收模型的错误指定;这些新的错误被预测到未来,可以在一定程度上弥补由错误指定的参数造成的较差性能。换句话说,由于DSGE模型产生更大的误差,减少了结构模型本身的相对输入,这些更大的误差具有不受限制的VAR的一些特征。相比之下,在间接推理中,错误错误加剧了模型无法生成与实际数据相同的数据特征的问题。

OSF检验模型的预测能力

OSF检验的这种弱能力意味着一个模型可以相当错误,但仍然可以相当好地预测——检验“通过”这样的模型,因为它们的预测比时间序列模型更好。我们发现DSGE模型的预测有一个关键的错误程度,在这个错误程度上,DSGE模型的预测和时间序列模型一样好,但并不比时间序列模型更好——在这个模型的情况下,第四季度的水平是7%。用户只对某些模型的预测能力感兴趣想知道是否型号高于或低于这个虚假阈值。

有两种方法可以从统计上证实这一点。一个可以使用OSF测试和检查是否模型在OSF测试的左侧或右侧尾部被拒绝(由于Diebold和Mariano 1995)。如果模型的预测表现在于左尾,那么我们就可以自信地拒绝该模型的假设靠运气预报得更好;如果它位于右尾,那么模型糟糕的预测是偶然的。

表3显示了这两个尾部测试的威力。我们可以看到,右尾测试有一些功率,但左尾的功率非常弱。因此,该测试清楚地识别出了预测比时间序列糟糕得多的错误模型——但请注意,它们必须非常糟糕,至少有15-20%的错误。同时,很难确定一个模型在系统上比时间序列更擅长预测,因为所有假度不超过7%的模型的预测性能是如此相似。这解释了Gürkaynak等人的发现,很难确定DSGE模型是比时间序列更好还是更差。

表3。左尾和右尾的OSF幂检验

关节3 -RH尾部 关节3 -LH尾
% F 4问 % F 4问
真正的 真正的 16.7
1 1 14.2
3. 3. 9.8
5 5 7.2
7 5.0 7 5.0
10 11.3 10
15 46.8 15
20. 99.5 20.

然而,如果有人愿意使用间接推理检验来建立模型M的假度,那么这个问题有一个简洁的解决方案。返回表2;对于7%的错误模型,间接推理检验的能力为99.4%。因此,如果政策制定者能够找到一个DSGE模型,它没有被这个测试拒绝,那么他们就可以完全相信,它在预测方面至少和时间序列模型一样好!这种模型对于政策评估也是可靠的。

结论

OSF检验越来越多地用于建立DSGE模型的质量——包括其规范和预测能力。在Minford et al.(2014)中,我和我的合作者通过蒙特卡洛实验在一个广泛使用的模型上评估了OSF测试可以可信地建立什么。我们发现,这些测试不能可靠地区分非常严重的错误模型之间以及与真实模型之间(它们对错误规范的抵抗能力较弱);就预测能力而言,它们又不能可靠地从仅能匹配时间序列性能的模型中区分出好的或坏的模型——因此,它们对预测性能好的和坏的模型都有相当弱的能力。这解释了DSGE与时间序列预测比较的矛盾结果。然而,如果用户愿意将其DSGE模型进行样本内间接推理检验,则可用于可靠地建立模型的规范质量和预测能力。

参考文献

克里斯提诺、M Eichenbaum、C L Evans(2005),《名义刚性与货币政策冲击的动态效应》,政治经济学杂志113(1): 1-45。

dibold, F X和R S Mariano(1995),“比较预测精度”,商业与经济统计杂志13: 253 - 263。

Edge, R M和R S Gürkaynak(2010),“估计的DSGE模型预测对中央银行家有多有用?””,布鲁金斯经济活动论文41(2): 209 - 259。

Gürkaynak, R S, B Kisacikoglu,和B Rossi(2013),”DSGE模型是否比VAR模型更准确地预测样本外?, CEPR讨论文件9576,7月。

汉森,L P和J J Heckman(1996),“校准的经验基础”,经济展望杂志10(1): 87 - 104。

Le, V P M, D Meenagh, P Minford,和M Wickens(2014),“通过间接推理和其他方法检验DSGE模型:一些蒙特卡洛实验”,卡迪夫经济学工作论文E2012/15, 2014年更新。

Minford, P, Y Xu和P Zhou(2014),“样本外预测测试有多好?, CEPR讨论文件10239。

斯米茨,F和R Wouters(2007),“美国商业周期中的冲击和摩擦:贝叶斯DSGE方法”,美国经济评论97(3): 586 - 606。

4332年读

Baidu
map