如果我们希望学校的运作方式有所改变,给不同的东西以不同的权重,那么我们需要有一些测评学生的标准。随着时代变化,我们所使用的考试方式就像课堂上的其他东西一样过时了。20世纪的考试方式和ABCD分级评分方式非常适用于产生标准化和等级制的结果,而这些结果正是一个重视标准化和等级制的社会所期待的,但这种考试并不能告诉我们孩子们的真正潜能如何。
让我感到安慰的是,虽然这套传统评分体系已让我们习以为常,但它刚出现时也同样不受欢迎。虽然历史学家们对谁发明了考试制度没有定论,但一般认为,对学生进行量化评分的概念源于剑桥大学。
大约在18世纪末,剑桥大学尝试采用了由几个老师对学生作文用数字或者字母进行评分,并辅以小段评论的方法。普遍认为量化评分方式可用于评估低阶的思维,是一种比较低层次的评估方式。在复杂、困难和高级的思维活动中,通常不推荐使用量化的评分方式。如果想要了解一个学生是否真正掌握了一门课程的实质,不管是经典文学还是微积分,你都需要通过口头演讲、展示和文章来理解。3时至今日,在牛津大学和剑桥大学仍然非常倚重于论文来展示学生的智力和成就。
在美国,耶鲁大学可能是第一个使用量化评分来区分排名前20%或者前30%的“优等生”、水平一般的“普通生”及垫底的“后进生”。4这种教学实践以各种变式在其他大学传播开来,包括哈佛大学、威廉与玛丽学院(William and Mary)以及密歇根大学。
到19世纪中叶,公立学校的老师对学生的论文进行评分,很大程度上是为了老师的方便,而不是因为这种评分对学生有利。比如,用考试来检验学生历史课的学习情况,用数字或者字母进行优劣判定,这并不是一种合乎逻辑或合理的方式。从课堂上大量关于第一次世界大战的争议、矛盾、具有价值取向的原因和政见,到学生在“1900年到1920年的世界史”课程答卷上的B+分数,这两者之间隐含了大量关于学习的假设。这种字母评级方式将对论文中所表达的思维能力的评估,缩减成为一个等级,而不再是曾经那种定性的、评估性和叙事性的评估。
1897年,曼荷莲大学(Mount Holyoke)最先采用了字母评级的体系,此后在其他大学和中学也得到广泛使用。5几年后,全美肉类协会的前身美国肉类包装协会(American Meat Packer Association)觉得这个方法非常方便,所以也采用了这个方法对肉类产品的质量进行分级(8)。6
在美国,从有评分体系开始,就有了人们对评分差异性的质疑。严格的评论者们担心评分者会放松标准给论文评分过于宽容,其他人则更担心评分者的效率而不是考试的客观性。如果你测试的不是那些优异的耶鲁大学或者哈佛大学的学生,而是成千上万的普通学生,你怎么可能真正仔细地阅读他们那冗长的对人生、地理、数学原理的牛津式的沉思,并且给出一个相应的分数?
在20世纪初的10年里,由于分数的统一性、规则性和标准化,客观性成了一个流行词,人们开始寻找能满足当下需求的测试形式。但怎么才能找到一个对不同人的智力进行标记的方式,以帮助我们区分从流水线工人到CEO这些不同能力的人呢?
多项选择题从此诞生了,这被评论者誉为现代美国教育的标志。7据估计,美国人大概每年要进行共计6亿次的标准化考试,大约是人均每天进行两次标准化考试。很明显,美国比其他任何一个国家都有更多的标准化测试,美国人是测试迷。美国对每个阶段的教育都有标准化的考试,有时甚至包括学前班。人们通过标准化测试来获得驾照,在商业领域、工业生产、政府组织和军队中的每一级职位都通过标准化测试进行选拔。8美国对标准化测试的有效性也有一套标准化测试的方法。
那么,标准化的测试到底从何而来?历史上确实有一位多选题之父,他就是弗雷德里克·凯利(Frederick J. Kelly),他于1914年发明了第一道多选题。如果有人把这道题给你,你会惊讶地发现它形式是如此熟悉。多选题的形式在这100多年里几乎没有什么变化。
凯利于1880年出生于内布拉斯加州怀莫尔(Wymore)的一个小村庄,于1959年去世。作为终生的教育工作者,凯利见证了多选题应用于几乎所有可以想到的领域,尽管它没有上升为一种国家的教育政策,没有成为唯一一个用来评估学生学习成就的指标,没有成为唯一一个衡量老师的教学成果或学校成败的指标。