教学

问题的目的才是关键

its-the-goal-of-the-question-that-matters

问题的目的才是关键

通过格兰特•威金斯,真正的教育

在过去的几十年里,我与教育工作者一起做评估工作,我发现,令人惊讶的是,很少有人理解什么有效性评估的手段和有效性如何确定。这种困惑导致了各种不愉快而又重要的后果:人们在不了解考试原理的情况下抨击考试问题,主管们就如何让孩子们准备外部考试给出了极不准确的建议,老师们最终在没有意识到的情况下设计了无效的考试。

效度是什么?

让我们从一个简单的定义开始。效度是关于测试是否衡量它应该衡量的东西。给定一个目标,我构造一个测试。如果一个问题准确地衡量了它应该衡量的东西,即我的目标,那么这个问题就是“有效的”。如果问题(和结果;(见下文)与所有被评估的目标一致。

因此,请注意,从技术上讲,问题本身并不是有效或无效的。相反,有效性是关于推理的。从这个问题的结果我们能推断出什么,又不能推断出什么?这个特定的问题和测试结果是否允许我得出一些更一般的目标的结论?这个特定问题的答案是否与一个更普遍的目标的表现相关联?这就是有效性的意义所在。

简单的例子。如果我给一个写作提示说“给我写一篇关于我的家庭作业政策是否公平的文章”,我的目标比提示更普遍。我想知道你的论文写得怎么样。我的目标与你们对评分系统的理解无关。当我给出下一个提示时,这个目标和有效性的问题变得更加清晰:我使用了一个不同的具体提示(关于素食主义),但它仍然应该是一篇文章。

另一个有用的例子是:2 + 5 = ?是一道考题;它测量的是什么?如果不知道,我们还不能肯定地说,如上所述,这是否是一个有效的问题;这取决于你的目标。

以下是一些可能的目标:自己决定这个问题(2 + 5 = ?)对于解决下列每个拟议目标的有效性:

这个问题可以用来确定学生是否

  1. 知道2 + 5的答案。
  2. 了解+和=符号的意义。
  3. 能把加起来小于10的一位数相加。
  4. 能加1位数字。

显然,它对#1有效。但是第一条并不是我们提出测试问题的目标;我们的目标通常更普遍,如上面的目标2、3和4所示。例如,测试问题是一个大而多样的主题(或测量人员所说的“领域”)的代表性样本。

有代表性的问题:像应试者而不是老师那样思考

从样本中概括问题是它变得有趣和棘手的地方。问题2 + 5 = ?可能对目标2和目标3得出结论是有效的,但可能对目标4无效。为什么?因为2 + 5= ?是相对容易的,所以不是吗代表所有的1位数问题。因此,如果我们的目标是第4点,我们就需要从特定的测试问题中归纳出来。一般来说,一个学生必须知道什么才能被认为擅长一位数的问题?因此,我们要确保使用5 + 9 = ?你知道为什么吗?我们知道这是一个更难的问题——它涉及携带,而另一个没有。因此,如果我们想要我们的测试是一个有效的“可以加1位数”的预测器,我们必须使用这样的问题。

当然,很可能一年级的学生答对5 + 9题的比例要低于答对2 + 5题的比例。这是一个重要的事实,它改变了我们作为教育者必须如何看待有效性。我们必须学会像考试制造者一样思考!

现在假设为了节省时间,我们只能选择一个问题。如果被测量的目标是#4——学生可以加1位数——那么,测量人员更愿意要求5 + 9而不是2 + 5。(出于“可靠性”的原因,他们不愿意只使用一个问题,我们将在下一篇文章中讨论)。为什么他们会选择更难的问题?因为他们知道-从过去的结果,以及概念上-它是一个更准确的预测我们的目标比简单的问题2 + 5。是的,他们意识到,如果他们只问答案,得到正确答案的学生可能会更少。然而,与老师不同的是,心理测量学家感兴趣的是把测量做对,而不是找出所有学生都能答对的问题。

作为老师,我们希望孩子们把一切都做好!但这不是重点。同时,我们也要正确把握其有效性。教师们有责任确保所有可能出现的加法问题——包括最具挑战性的问题——都能在教学和本地评估中得到很好的解决。然后,他们就可以准备考试了。(想想:最常见的错误和误解是什么?我们希望对这些进行检测;在后面关于干扰物的帖子中会有更多的介绍。)

对老师来说,直接的启示是:你们的测试必须和外部测试一样严格,如果不是更严格的话。你不能只是模仿它们的格式。事实上,最好不要模仿这种形式,只使用构造好的回答问题,或者至少让学生解释他们为什么选择了他们做的答案。(关于这一点,下次再谈)。

所以,说所有得到2 + 5 =的学生?正确的“会加1位数”。你不能从这些结果有把握地得出那个结论。因为答对这道题的学生比答对那道更“生动”的题的学生多。换句话说,与2 + 5题相比,5 + 9题的结果提供了一个更准确的衡量标准,可以预测有多少%的学生能够达到目标。

作为有效样本的公平测试

我们在上面已经注意到,测试必须考虑来自目标所反映的一般“领域”的“代表性”问题。那么,一个过于简单的问题本身并不能“代表”此类问题领域中的所有1位数问题。类似地,在一个很少有学生答对的古怪深奥的问题上,结果可能隐藏了对更一般主题的真正理解程度。

这在我们比较小测验时更容易看出来。下面哪一个测验,A或B,更有可能给出学生是否“能准确地加1位数”的更有效的结果?

测试一个

2 +3 = 2 + 5 = 3 +3 = 4 + 5 = 5

测试B

2 + 3 = 2 + 5 = 7 + 8 = 6 + 9 =

显然,我们希望更能说明问题的结果比测试从测试B a地址域的一些困难问题,而不仅仅是简单的测试a测试B预计错误的,不仅仅是增加你的手指通过计算重要指标的添加所有1-digit数字“能力”。

统计在有效性方面的作用

但现在请注意这里暗示并在开头就注意到的第二个新观点:有效性只能完全建立在当前和过去结果的模式之上。你不能仅仅判断问题本身的有效性;根据我们对目标的理解,以及其他有效的评估结果,你必须判断使用问题时的结果模式是否是我们将预测/预期/经验。(这就是为什么测试必须被引导!在缺乏试点的情况下,这就是为什么HS和大学的考试往往是“弯曲的”)

再次考虑我们的短文提示。假设我给四年级学生的提示是:给我写一篇关于美联储通过购买债券来刺激经济的智慧的文章。嗯?结果将是可怕的:没有一个四年级的学生对美联储了解太多(除了1-2个极怪的新兴企业家)。因此,结果的模式——不典型地差——表明提示产生了无效的结果。换句话说,问题很可能是提示,而不是孩子和教学。

但反过来也可以如此:我可能会问一个非常轻量级的问题“写一篇关于吃甜点姓而不是”的智慧和得到更多的揭示和精确的结果谁能比如果我写论文使用高学术文本提示基于大思想或困难。事实上,在州际和全国性的考试中,写作题型之所以常常显得如此拙劣,原因之一就是为了确保内容知识不是评判写作的决定性因素。我们只是想知道:你会写字吗?如果作文高度依赖于“内部人”的知识,而这是许多孩子不可能获得的,那么结果就不能有效地表明“谁能写作文”。

在测试中,即使以真实性为代价,效率也是可取的

啊,但这就引出了一大堆麻烦,就我的经验来看,大多数老师都无法理解。从这个概念可以得出的结论是一个问题可能看起来很琐碎或奇怪,但却提供了针对目标的有效推论(就像有些问题看起来很深刻,很有启发性,但对目标无效)。换句话说,在测试高度暴露的问题时,naïve的人可能会认为这些问题是“愚蠢的”、“琐碎的”或“无效的”。

一个很好的例子就是通过词汇和类比测试来评估阅读和思考能力。几十年来,测试人员都乐于使用词汇测试项目来测试阅读能力。嗯,怎么了?因为测试者从研究中知道:1)极其丰富的词汇量来自阅读丰富的文本;2)他们从许多结果中知道词汇测试与处理文本难度的能力有关。类比题也是如此,在sat、lsat和GRE考试中,类比题很受欢迎:它们是培养分析性和批判性思维的有效代理。许多研究表明,它们与那些复杂技能的更直接评估高度相关。

这种有效的代理对于测试人员来说是很关键的。考虑到成本、物流和让学生筋疲力尽的问题,他们需要考试越快越好。他们会很高兴地把问题当作真实情况的有效代理。通过测试一个人的词汇量可以快速预测他的阅读能力(通过阅读文章和写作来直接评估需要更长的时间)。不需要对阅读进行真实的评估,那么就心理测量学而言:词汇测试用更少的时间和金钱就能得到所需的结果。考试的真实性可能有教学上的原因——我强烈认为有——但是应试者并不关心这种需求(除非写考试说明的人告诉他们)。他们只寻求有效的有效性,考虑到通常发放给他们的牌。

真实性不是有效性所需要的。更糟糕的是,事实恰恰相反:许多“真实评估”缺乏上述意义上的有效性——从结果来推断目标。下一篇文章将详细介绍这方面的内容。

与事实相关的目标

正如这些讨论所表明的那样,有效性是一个棘手的问题,因为目标通常比任何测试问题都要广泛和深入,所以在将刚刚合适的特定问题与更普遍、更难以衡量的目标匹配时,需要做出判断。有效性没有简单的公式。我们需要像科学家一样仔细地分析信息,以确定假设——这个问题与目标相符——是否符合数据。

由于目标比具体问题更普遍,教师很容易被标准化考试中事实性问题的含义所误导。

这些标准(不管是国家标准还是国家标准)很少指出人们必须知道的具体事实。当然也有例外:重要的日期、人物和历史事件;数学和科学的关键术语等。但是仔细看看你的标准文档(和发布的测试),你会发现大多数目标陈述比任何具体的事实都要广泛,很少有问题寻求事实。

考虑这个在状态测试中广泛使用的示例:

美国内战是在哪个十年发生的?

  1. 1770年代
  2. 1790年代
  3. 1860年代
  4. 1890年代

评估一个事实,对吗?不。几乎从来没有一个标准说“了解内战的开始和结束年份。”

在这种情况下,目标是更普遍的:学生能否将这个事件(和其他“关键”事件)放在一个合理准确的时间线上,以显示美国历史的适当时间和年表?事实上,学生可以记住一些关于内战的传说(格兰特vs.李,阿波马托克斯),但请选择上面的第1个答案。关于他们对内战的理解,我们应该得出什么结论呢?当然,时间轴问题是一个更能说明问题的指标(以及为什么历史考试中经常问这个问题)。

这就是为什么当你可以访问已发布的项目时,只看去年问题的内容是非常不明智的。这不是重要的问题;问题的目的是什么才是最重要的!明年的问题会有所不同,但目标不变。这就是为什么我说:关注标准,而不是测试。想想看:这也是考试制造者对标准的看法。

之前什么?有些(并非全部)对“虚假”试题的指责完全是基于一种误解。在后面的一篇文章中,我将解释为什么我认为一些被许多人认为是假的著名试题并非如此。

提示:菠萝在纽约州。

3快速外卖

下面是我们第一次看有效性时得到的3个实用启示:

  1. 你应该在你自己的试卷上陈述每个问题的目标。看看下面来自老佛罗里达FCAT的好例子。你很快就会发现,当你开始更自觉地担心有效性时,有时候你的问题并不是最好的。在外部测试中,相对于具体的问题,更关心它评估的标准。
  2. 确保你担心的是与目标相关的整个挑战领域的“代表性”问题。不要只问那些简单、明显或熟悉的问题。你也不应该问一些琐碎的问题(除非你确信它们是真正理解主题的代理)。这就是为什么州测试的局部结果低于本地测试的原因:太多的局部测试在从所有可能的问题中公平抽样方面不够严格。
  3. 您应该仔细查看结果的模式,以确定这个问题是否是对目标的“公平测试”。大学和高等教育学院的老师采用“曲线评分”的部分原因是考虑到问题可能太难或太容易,正如结果所反映的那样。

PS:一个佛罗里达FCAT的例子,关于如何给自己的每个问题贴上标签:

cherry-blossom-main-idea-fcat

本文首次发表格兰特的个人博客;补助金可在在推特上这里;图片归属flickr用户camknows;问题的目的才是关键