AdobeStock_84461505.jpeg
VoxEU 教育

问责制考试可以提高学生成绩

学校系统越来越多地将学生评估用于问责目的。通过将问责制改革与过去15年的国际学生成绩数据相结合,本专栏显示,与外部比较相结合的标准化测试的扩大提高了学生在数学、科学和阅读方面的成绩,而没有外部比较的内部测试或教师检查则没有。

在许多国家,学生考试正在迅速扩大。例如,根据欧盟委员会教育、视听和文化执行机构的数据,在2000年至2015年期间,该机构覆盖的18个欧洲国家中,有8个国家引入了全国性考试,以决定学生在小学或初中毕业后的学校教育(Eurydice 2009, 2017)。在我们分析的59个国家中,23个国家使用标准化评估进行外部比较的学校比例同期增加了20多个百分点。

学生考试的增加,以及它在学校的使用方式,引起了激烈的争论。支持者认为,增加考试和问责制的使用对提高教育效果至关重要。他们认为,衡量学生和学校的表现,以及他们与其他学校的比较,会产生提高的动力。例如,世界银行(2018年)在其关注学习的《世界发展报告》中明确呼吁扩大对学生的评估,并得出结论:“对学习的衡量太少,而不是太多”(第17页)。

相比之下,批评者认为带有奖励和激励系统的高风险测试是不合适的(Koretz 2017)。他们认为,增加使用学生测试损害学校教育(Hout和Elliott 2011)

学生评估的不同维度

在我们看来,这种争论在很大程度上是令人困惑的。它没有区分测试的不同形式和用途。想想美国的讨论吧,在美国,对测试的考虑大多局限于问责制,比如《不让一个孩子掉队》(NCLB)。这种标准化测试被规范到一个大的群体中,以提供对学校后果的外部比较。它完全不同于用来评估课堂学习节奏的教师考试。

同样地,根据学生的表现来评价老师和评价哪些学生应该上大学是截然不同的因此,在现实中,学生评估有很多方面。要理解学生测试的整体影响,我们需要考虑评估的用途,以及它们所产生的激励。

在不同的学校环境中,这些配置评估的不同方式可能会改变不同利益相关者的绩效激励力度。对学生学习的影响取决于他们创建的数据如何转化为对参与者的激励,以及这些激励如何改变行为。

虽然以前有过对问责制影响的评估,主要是在美国(Figlio和Loeb 2011年提供了一份综述),但目前尚不清楚如何从这些评估中得出结论。政策在国家教育系统的特定制度环境中运作,因此评估忽视了一个国家的共同特征。检测政策通常是在国家层面制定的,所以我们通常没有足够的比较组来评估结果。因此,用于问责目的的这些扩大的学生评估的大多数应用都没有得到充分的评价。

在国际学生成绩测试中使用加班变化

在一项新的研究中(Bergbauer et al. 2018),我们使用国际对比来评估学生评估的不同类型和维度对学生成绩总体水平的影响。这拓展了在跨国环境下研究学生成绩决定因素的研究(Hanushek和Woessmann 2011年和Woessmann 2016年提供综述)。通过国际比较,可以考虑到整体制度结构如何与学生评估和学校问责制的具体内容相互作用。这种跨国家的方法使我们能够调查学生评估系统的哪些方面适用于更大的环境,哪些方面不适用。当然,确定各国教育政策的影响具有挑战性。

我们的实证分析利用了越来越多的国际学生评估数据。国际学生评估项目(PISA)由经济合作与发展组织(OECD)开展,测试15岁学生的数学、科学和阅读能力的代表性样本。它提供了一个国家学生表现观察面板。我们汇集了59个国家的200多万名学生的微观数据,他们在2000年至2015年期间参加了6次PISA测试。

PISA还包括这些国家学生和学校机构的丰富背景信息。我们从调查数据和其他国际数据来源中得出不同类型的学生评估指标。我们使用了13个指标,在各个国家的水平上观察,建立了对应于不同激励模式的四种不同类型的测试使用方法:标准化外部比较、标准化无外部比较监测、内部测试和内部教师监测。

这个数据库允许国家一级的小组估计,这种估计依赖于对国家评估做法变化的国内长期分析。因为在2000年至2015年期间,各国学生评估政策发生了快速变化,我们可以在包含国家和年份固定影响的面板模型中将政策与结果联系起来。也就是说,评估忽略了各国之间的水平差异,只使用了各国内部学生评估制度随时间的变化。

在Hanushek等人(2013)对学校自主性的分析基础上,我们在微观层面上使用学生个人数据进行估计,但在每个点上以国家合计来衡量我们的处理变量,以避免来自国家内部入学学生选择的偏见。对国家和年份固定效应的条件作用使我们能够解释未观察到的时不变的国家特征,以及常见的时间特定冲击。我们的模型进一步基于一系列丰富的学生、学校和国家措施。我们分析的关键识别假设是固定效应面板模型的标准假设。在没有改革的情况下,实行分摊额的国家的成绩变化将与没有改革的国家的成绩变化相似(视所纳入的控制变量而定)。

外部比较对于提高学生成绩的测试至关重要

我们的研究结果表明,一些学生测试的使用影响了学生的学习,而另一些则没有明显的影响。特别是,通过外部比较来扩展标准化测试可以提高学生的成绩,而内部测试却不能。

也许要了解我们的结果,最简单的方法就是看看2000年到2015年之间考试使用和学生成绩的长期变化。如图1所示,与没有扩大(甚至减少)这类测试的国家相比,扩大使用标准化测试进行外部比较的国家系统地看到其学生的平均数学成绩有所提高。相比之下,内部测试的使用变化与各国学生成绩的变化没有系统性关联。

图12000-2015年,数学考试成绩与使用标准化测试进行外部比较之间的关系

: Bergbauer et al.(2018)。
笔记:这是一个附加变量的图表,反映了各国的PISA平均数学分数的变化,以及采用标准化测试进行外部比较的变化情况,有学生、学校和国家对照的条件。

当我们进行个体水平的回归分析时,这些结果是相同的,这些回归分析采用了测试制度的全面板变化和学生成绩在六个PISA波。

提供外部比较的扩展标准化测试与国际测试成绩的提高有关。学生在数学、科学和阅读方面的成绩也是如此。它也适用于以学校为基础的地区或国家表现的外部比较形式,以及以学生为基础的外部比较形式,如用于职业决策的国家标准化考试。

但是,如果内部测试只是告知或监控进度,而没有外部可比性,那么它对整体表现几乎没有明显的影响。用于监督教师(包括检查官)的内部评估也是如此。在没有外部比较的情况下引入标准化监测,对表现较差的国家产生了积极效果,但对表现较好的国家则没有效果。这反映了基于学校的外部比较的影响模式,在表现较差的系统中,这种比较的影响更大。

我们还进行了安慰剂分析。使用标准化的外部比较在实施的那一年对学生的成绩有显著的积极影响,但在前一波中没有。这也表明,一个国家过去的表现并不能预测它是否会实施评估改革。这意味着,评估改革对学校系统表现的内生性不太可能是我们研究结果的一个关注点。进一步的稳健性分析表明,结果不受任何单个国家或PISA测试程序的变化的影响,当我们控制测试排除率时,它们对国家子集具有稳健性。

政策的结论

测试制度的影响对政策越来越重要,因为随着测试技术的变化,扩大评估变得更容易。将问责制与改革和改进联系起来,导致了全球范围内考试的增加。与此同时,对学校考试和监督的强烈反对经常引发有争议的公开辩论。

我们的研究结果表明,使用标准化测试来比较学校和学生之间的结果的问责制改善了学生的结果。与那些只报告标准化考试结果的体系相比,这些体系往往具有重要意义,能产生更高的学生成绩。它们也比依赖于本地化或主观信息的系统产生更好的成绩结果,而这些信息无法在学校和教室之间轻易进行比较,研究发现后者对学生成绩的影响很小。

此外,在表现不佳的学校系统中,测试和问责制的影响更大。不同成就水平的国家学生评估的不同影响表明,从特定国家的测试体系中泛泛概括并不总是恰当的。

参考文献

安德鲁斯,P和合著者(2014),“经合组织和Pisa测试正在破坏全世界的教育,”《卫报》, 5月6日。

伯格鲍尔,A B, E A Hanushek和L Woessmann(2018),“测试”,NBER工作论文24836。

Eurydice(2009),欧洲小学生国家测试:结果的目标、组织和使用,欧洲委员会教育、视听和文化执行机构。

Eurydice(2017),“在线平台,欧罗巴。欧盟/eurydice”,教育视听文化执行机构。

Figlio, D和S Loeb(2011),“学校问责制”,在教育经济学手册第三卷,E A Hanushek, S Machin和L Woessmann编辑,北荷兰:383-421。

Hanushek, E A, S Link和L Woessmann(2013),“学校自治在所有地方都有意义吗?”来自PISA的小组评估”,发展经济学杂志104: 212 - 232。

Hanushek, E A,和L Woessmann(2011),“教育成就的国际差异的经济学”教育经济学手册,第三卷,E A Hanushek, S Machin和L Woessmann编辑,北荷兰:89-200。

豪特,M和S W埃利奥特(2011),教育中的激励和基于考试的问责制美国国家科学院出版社出版。

Koretz D (2017),考试的把戏:假装让学校变得更好芝加哥大学出版社。

拉米雷斯、F O、E Schofer和J W Meyer(2018),《国际考试、国家评估和教育发展(1970-2012)》,比较教育评论62(3): 344 - 364。

沃斯曼,L(2016),“学校制度的重要性:来自学生成绩国际差异的证据”,经济展望杂志30(3): 3-32。

沃斯曼,L(2018),“中央出口考试改善学生成绩”,IZA劳动世界2018: 419。

世界银行(2018),2018年世界发展报告:学习实现教育的承诺世界银行。

尾注

甚至国际考试本身——在自愿的基础上,在低风险的情况下进行——也因潜在地损害国家的教育计划而受到攻击(Andrews和合作者,2014年)。然而,最近的分析认为这不是一个问题(Ramirez et al. 2018)。

[2]参见Woessmann(2018)对中央出口检查的文献综述。

2730年读

Baidu
map