• 精选
  • 会员

定时阅读测试的诞生

2020年6月6日  来源:重新认识学习 作者:凯茜·戴维森 提供人:xionghao59......

凯利在恩波里亚州立大学(Emporia State University,前身是堪萨斯州立教师学院)开始其职业生涯。1914年,他在教师学院完成名为“老师的评分及其变化与标准化”的博士论文。论文主要提出两个问题:第一,他对教师给论文打分时带有的强烈主观性表示担心;第二,他认为打分占据了教师太多的时间。随后,他提出了解决第一个问题的方案,即标准化,这也同时让打分变得快捷和有效而解决了第二个问题。

受到“心理测试运动”的启发,凯利开发出了“堪萨斯默读测试”。那时,他已经担任堪萨斯恩波里亚市州立师范学校培训学院的主任,然后又担任堪萨斯大学教育学院院长。“总有老师希望了解他们训练学生阅读能力的有效性,”凯利写道,“在学校中,没有比阅读能力的培养更加重要的事情。”9对于凯利来说,“有效的教育”意味着统一的结果。凯利所处的时代让他对可靠性、统一性和重复性的重视超过了对独特、创新、个体化、特质、判断力和变化的重视,他希望教育学生像在流水线上生产具备可靠性和标准化的模具一样。

定时的阅读测试就这样应运而生。1914年,在测试中人们需要在规定的时间内给出精确的回答,而且任何人都可以快速和准确地对测试结果进行打分。堪萨斯默读测试于教育工作者而言,就像汽车制造商们的T型汽车模具,重要且不可替代。它是机械时代完美的测试,正如福特主义理想的那样:“只要产品是黑色的,你可以得到你想要的任何颜色。”

为了让测试既客观又有效地实施,凯利坚持不允许问题存在任何的模棱两可。答案要么完全正确要么完全错误,没有可以变化的解读。这种形式对于每个读者都是非常熟悉的:“下面有四个动物的名称,请将对农场有用的动物圈出来:牛、虎、鼠、狼。”

题目还说:“示例题说明了要‘圈出来’。即使在正确答案下画横线,也算错误,将不计分……一旦结束铃响,请立即停止答题。在考试铃响前,请不要翻开试卷提前作答。”10

这就是我们现代标准教育的根基,为机械时代发展储备年轻力量。没有人否认这种考试的有效性,而这种有效性对于20世纪初的前10年来说是非常重要的。当时随着人口剧增,公立学校从1880年的500所上升到了1910年的10 000所,中学生的数量增加了10倍。11即便如此,仍然有教育工作者反对凯利的考试,认为它主要关注低层次的思考,而错失了其他复杂、理性和逻辑性的思维。他们抗议说论文这种长期建立起来的考试形式才是体现知识的高级形式,而多选题考试则是一种低质量的形式。论文考试关注知识间的关系、联系、结构、组织和逻辑,多选题考试则侧重于无逻辑的记忆、无背景的事实和无分析的细节;论文允许创新性、修辞性及其他个体风格的表达,而默读测试却只坚持计时的统一性,在特定的时间内给出最多的正确答案;论文强调了连续的思维,而默读测试却只需要正确的答案,将知识分割成了不相关的知识节点;论文鼓励个人特质甚至是偏好,而默读测试却是统一性和去个性化的同义词。12

多选题测试确实避免了在打分时进行主观判断,这种避免被称为“客观”。这不是因为它对学生已有的知识做出了正确测量,而是因为在评分中没有掺和任何主观的成分。老师或助教的主要任务是记录分数,她个人的判断不再能够决定一个孩子是否真正学到了什么。20世纪20年代,教师成了以女性为主的职业,但是学校的行政工作却越来越成了男性的天下。在学校教育领域拿到高等学位的几乎清一色是男性,不是因为他们教得更好,而是因为他们可以更有效地经营学校。13

默读测试之所以被认为非常重要并得到普及,主要是因为它包含了如下价值:有效、量化、客观、真实及“科学”。1926年,凯利发明的考试形式为美国大学入学考试委员会(CEEB)所采用,成了学习能力倾向测验(Scholastic Aptitude Test,简称SAT)的前身。14由于大量学生采用同样的测试,使用同样的方式打分,都转化成为可以比较的结果,这些考试变成机械时代的另一种产物:统计学。统计学家们使用不同的心理测量理论来得出最佳数据。15堪萨斯默读测试根据被测试小孩的年级设置不同的问题,凯利这样做是因为他不仅想让分数体现个人成绩,作为老师和父母评估孩子们学习进度的指标,还可以用来与同一年级的其他班进行比较,与同一学校的不同年级比较,与不同学校、地区进行比较。这听起来非常熟悉,因为这几乎与我们当前的教育政策一模一样!

凯利的教育哲学发生过一次非常重大的转变。1928年,他升职为爱达荷大学的校长,那时他对美国教育的观点已经改变。在他的就职演讲“大学的前景”中,他反对美国在第一次世界大战后所主导的教育倾向,反对日渐具体化和标准化的潮流。在他任校长期间,爱达荷大学最大的改革就是与当时的教育运动唱反调,为大一和大二开设了统一的人文科学课程。他的方法重视通用性和批判思维。“大学已经将其责任从学生转移到了老师,重点从学习转向了教学,伴随而来的结果是那些以基础实力为目的的培养或终身学习的习惯几乎消失。”凯利在宣布他的教育蓝图时如是说。他反对过早地在学生的教育发展中进行专业化,主张一种“更加基础的大学学习阶段”。他坚持,“大学是一个学习如何进行自我教育而不是被教育的地方”。16

然而,凯利的观点与现代化、专业化和标准化的教育理念相左,这种教育理论却恰好是在他的力挺下得到发展的。爱达荷大学一些学院的教职工反对凯利的改革,1930年他被迫辞职。17但正如我们所看到的,他发明的考试形式直到今天仍然存在,存在于美国每个公立学校、每个在公立学校工作的老师,以及每个在公立学校年终考试成功或失败的学生身上。

在凯利晚年的著述中,他明显已经改变了对这些测试的看法。他并不怎么写文章,但在他写的东西里从来都没有提到过堪萨斯默读测试的事情。他没有选择让历史铭记这份成就,而是让其沉寂。

标准化测试有很长的历史,这种考试形式对社会产生了巨大影响。“统一”和“有效是标准化测试的核心精神,与之相似的是IQ测验的精髓。IQ测验的历史与标准化的多选题测试之间纠缠不清,有时很难分清两者在目标上的区别。实际上,两者也是混在一起出现的。18虽然关于IQ测验有很多的论著,但鲜为人知的是,第一个IQ测验并不是为了客观地测量内在的心智能力,而是为了测验特定的能力倾向,即在学术科目上成功的能力。凯利是想找出一个统一的方式来测试儿童在学校的成就,法国的教育者们则在寻找一种能够用于预测儿童在学校成就的测试,以此来帮助那些可能在法国公立学校中有学习困难的学生。

1904年,法国心理学家阿尔弗雷德·比奈(Alfred Binet)和泰奥多尔·西蒙(Théodore Simon)受到法国公共教育部的委托,开发出一种能够识别和诊断对掌握法语课程有困难的学生的测试。19他们当时用的是“智力”更古老的那层意义“理解”来表示学生的掌握程度,并希望把学生的学习进程绘制成图表,而不是单单把生物、遗传、自然心理的特质汇总起来。

就在凯利开始他的测试研究那年,法国的这两位心理学家也正处于寻找有效和标准化测验方式的历史时刻。“如果每个心理医生都可以对那些在学校里接受教育的儿童使用不同标签进行诊断:低能、迟钝、愚蠢、智障,我们该如何判断这些小孩的智力发展呢?”他们要进行标准化测试的另一个理由是,如果没有老师们的反馈,神经科学家们并不能告诉我们“20个孩子当中,哪16个是排名在前的或垫底的”。

这是一件非常奇怪的事:你需要一个测试来确认老师已经知道的事情。这个测试非常重要是因为当神经科学家只通过使用他们的手段和方法来进行该任务时总是会犯错。历史学家马克·加里森(Mark Garrison)曾经问道:“如果我们知道哪些学生是尖子生,哪些是垫底的,谁又在乎神经科学家能不能区分出来呢?”他怀疑智力测验的重要性到底是为了测试学生的智力,还是在为教育机构的判断、教育评估和当时的科学实践来找证据。20

比奈担心对自己发明的测验的误用。他坚称这个测验的目的不是测量。他认为智力有许多不同的形式,只有一部分可以通过他的智力测验或者其他测验测量出来。他对不同技能、能力倾向和智力形式的理解,与霍华德·加德纳(Howard Gardner)(9)的“多元智能”(multiple intelligences)理论非常相似,完全不是一种死板的,把测量标准简化为数字的方式。21

然而,大众对他的警告充耳不闻。比奈于1911年去世,在他死后不到一年,德国心理学家威廉·斯特恩(William Stern)提出,可以把个体在比奈标准测试上的得分除以其年龄,得到的数字可以定义一个人的“智商”(Intelligence quotient, IQ)。221916年,斯坦福大学的刘易斯·特曼(Lewis Terman)将这个量表引入美国,并将其命名为斯坦福–比奈智力量表,从此这个量表变成了测试内在心理能力的黄金标准,而这正是比奈所担心的滥用。比奈的测试和量表被沿用到今天,它没有成为对学术潜力进行测量的工具,而被视作对内在智力的科学评估。

在比奈去世之前,他强烈反对将其测试作为一种评估先天大脑能力或者智力指标的工具。其实在中年时,他就已经对自己年轻时创造出的成就更加自省和谨慎,也曾在他所擅长的唯心论、催眠术和颅相理论领域受到质疑时,进行过非常真挚的反思。自学成才的比奈,对于夸大其测试重要性的言论持有非常谨慎的态度。

关于比奈对1917年起对他测试的误用表示震惊和厌恶,有一个久经传诵的故事。

考试

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000