概括(generalization)是以总体的一个样本为基础,将从样本中抽取出来的属性推广到该总体的过程。例如,每次和室友的猫、女友的猫和艾伯特叔叔的那两只猫(你的样本)待在一起时,你都会打喷嚏。在这些经历的基础上,你能够合理地推出结论,那就是所有的猫(总体)都有可能让你打喷嚏。
科学家经常使用概括的论证方法。例如,斯坦利·米尔格拉姆在有关服从的实验中发现,65%的被试服从了权威者的命令。即使他们认为这会严重伤害甚至杀死学习者,依然会继续服从命令。从实验结果中,米尔格拉姆得出结论,人们一般很容易在权威者的引导下卷入破坏性活动。在得出该结论的过程中,米尔格拉姆使用了概括的方法,即从实验被试者(样本)的行为中概括出人类总体的特征。
使用民意调查、普通调查和抽样调查的方法进行概括
诸如大学新生调查等民意测验和调查采用的也是归纳性的概括方法。民意测验(polls)这种调查方法是采集样本人群针对某项主题的观点或信息并用于分析。
您对民意调查的积极参与,有助于更加准确地反映特定群体或大众的意见。
民意测验为人们了解大众的想法和感受打开了一扇窗户。很少有市场公司或公共政策制定者会在不参考民意调查结果的情况下做出重大的行动决策。民意调查在美国这样的民主制国家中发挥着尤为重要的作用,美国宪法明确规定,政府必须在“获取被统治者的同意”的基础上运行。政治家在做出承诺之前都会查看公众的民意调查结果,以查明公众的想法,尤其是在选举之年。在某个州或城市进行竞选活动时,政治家们甚至要根据民意调查的结果来决定应该穿什么样式的衬衫(例如短夹克衫、Polo衫还是白色衬衫)。
抽样方法 为了确保关于某一总体的概括是可靠的,民意调查者在面对数量庞大且类型多样的总体时,会采用抽样的方法。这样,可以避免花费大量的时间和金钱等成本。抽样(sampling)需要从某一类别或群体中选择少量的成员,然后在这些成员特征的基础上概括出总体特征。例如,在2007年进行的大学新生调查中,研究者没有对总数达140万人的美国大学一年级全日制学生进行全体调查,而是只邀请美国实行四年制的学院或大学的学生来参与,共有来自356所院校的272036名新生参与了此项调查,大约占全部美国大学新生人数的20%。当然,如果选取的样本对总体有足够的代表性,这一样本量已经远远超过了正常需要的数量。
代表性样本(representativesample)是指在相关方面与总体相似的样本。为了获得有代表性的样本,大多数专业的民意调查者会采用随机抽样(randomsampling)的方法。如果总体中的每个成员都有均等的机会被抽中成为样本,那么这个样本就是随机的。比如,彩票的中奖号码是从所有可能中奖的号码组合中随机抽取产生的,其原理是相同的。盖洛普民意调查的样本数量保持在1500至2000个,但却非常具有代表性,这是它能够一直准确预测美国人态度的基础。
如果很难获取随机样本,另外一种保证样本代表性的方法是对调查结果进行加权。大学新生调查便采用了这种方法。如果某年某一类学校样本数量不足(比如历史上的黑人学校或天主教学校),可以对来自这一类学校的调查结果进行加权,以增加其在最终结果中的重要性,从而保证最终结果能够有效地代表美国大学新生这个总体。比如,在所有的大学新生中有20%的学生就读于天主教学校,而在调查中却只有10%的被访者来自于天主教学校,那么这些被访者的结果应该进行双倍加权。运用这种抽样方法,研究者能够对美国所有大学新生这一总体的特征做出相对准确的概括。
对某一总体做出可靠概括所需要的样本量大小在一定程度上依赖于总体的大小。一般原则是,样本量越大,我们越能够确信做出的概括是准确的。样本大小也取决于总体内变异量的多少。总体的变异量越多,得到准确结果所需要的样本量也越大。
如果总体特征相对稳定,那么样本数量可以相应地减少。例如,你最近感到身体虚弱,比较容易疲惫,所以去看内科医生。医生从你身上抽取了少量的血进行化验,化验结果显示,血样中的血红蛋白数量较少,你患了贫血。医生抽取的血样与你身体里全部的血液相比只是非常少的一部分。你是否应该要求医生从你身上的其他部位再抽一些血样,以保证血样具有代表性?在这个例子中,答案当然是否定的。因为我们身体里的血液是完全一样的,至少血红蛋白含量不会改变,医生非常确信抽取的血样能够代表你身体里的所有血液。
并不是所有的民意调查和普通调查都使用随机抽样和其他校正偏差的方法。网络调查和电视调查就可能出现偏差或缺乏代表性,因为这些调查仅仅依赖于自己的观众或用户提供的数据,例如《美国偶像》和CNN(美国有线电视新闻网)等电视节目和电视台发起的调查。街头调查和电话调查也可能出现偏差,因为并不是每个人都愿意停下来接受民意调查员的访问或者接电话。在这样的情况下,样本被称为自我选择的样本(self-selected sample)。换句话说,只有那些对调查感兴趣的人才会花费时间参与调查。
即使是专业化的调查,也会因为不正确的方法而导致偏差。1936年,《文学摘要》杂志为了预测富兰克林·德拉诺·罗斯福与阿尔夫·兰登两人谁会在总统大选中胜出而进行了一项大规模的调查,调查的组织人员从杂志的订阅名单、电话簿和汽车登记名单中抽取被访者并寄发问卷,最后收回了大约230万份问卷。问卷结果预测,兰登会赢得总统大选。而结果却是,罗斯福赢得了60%的选票,他也成为了美国历史上得票率最高的总统。错误出在哪儿呢?首先,《文学摘要》杂志的读者群主要是受过良好教育的人,因此调查便出现了偏差。其次,在1936年,许多人还没有安装电话或拥有汽车,所以抽取的样本进一步偏向了富裕人群。而乔治·盖洛普则使用数量较少但代表性强的样本成功预测了此次选举结果(参见“独立思考:乔治·盖勒普”)。同样,在2008年的总统选举中,有些电话民意调查显示约翰·麦凯恩的支持率更高,而最终却是奥巴马当选,原因便是许多年轻人只使用手机而没有固定电话,他们的电话号码不在登记之列,所以没有被纳入调查对象,而在这些年轻人中间奥巴马具有压倒性的优势。
《美国偶像》决赛选手黎·德维兹(左)与克里斯托·鲍尔索克斯同唱最后一首歌,之后根据打进电话者的投票(自我选择的样本),德维兹被宣布为冠军。
独立思考
乔治·盖勒普,意见寻求者
乔治·盖勒普于1901年出生于爱荷华州杰斐逊,1984年逝世,求学于爱荷华大学,期间曾担任校报的编辑。他还获得了爱荷华大学的新闻学博士学位。
毕业后,盖勒普首先找到了一份在广告公司担任访问员的工作。他对其他人的想法以及为什么这么想产生了极大的兴趣,于是他发展了一项令人震惊的技术,不是简单的猜测,也不是仅仅问认识的人,而是真正地面对阅读整份报纸的读者样本,询问他们读了哪部分内容,喜欢或不喜欢故事的哪些方面。
1934年,盖勒普在普林斯顿大学创办了盖勒普民意调查,在那儿他成为第一个利用科学方法获取大众观点的人。他的民意调查方法起初被应用于倾听国家的政治脉搏。盖勒普还发明了市场研究,被描述为“顾客最后的救世主”。他的工作在今天仍被认为是认知科学最伟大的实际应用范例之一。盖勒普曾经说过:“教会人们为自己思考是这个世界上需要做的最重要的事情。”*在盖勒普看来,消息灵通的大众对民主国家而言是必不可少的。他彻底改变了美国,使普通民众有权力表达自己的观点,而让权威人物告诫人们应该相信什么和做什么变得更加困难。
讨论问题
1. 大多数大学的图书馆都收录了盖勒普民意调查。请查阅最新的盖勒普民意调查。讨论民意调查中的提问和回答,在哪些方面能够帮助你成为更优秀的批判性思维者,并在面对重大抉择时做出更加有效的决定。
2. 使用盖勒普民意调查检索目录,选择你认为重要的议题。仔细分析这些问题,有多少美国人与你的看法相同?查看民调结果是否有利于开拓你对该问题的思路?给出答案并说明理由。
*引自http://www.schoolofthinking.org/who/george-gallup/。查询更多关于盖勒普民意调查的资料,请登录http://www.gallup.com。
调查问题的措词对被访者反应的影响。调查问题的措词和表达方式也可能导致结果的偏差。1980年,有一项针对美国堕胎权行动联盟(自2003年以后更名为美国自由选择堕胎权保护组织)的民意调查,试图通过下面两种不同的提问方式来研究不同的措辞是否会影响被访者的回答:
· 你认为是否应该在宪法中加入修正条款以禁止女性堕胎?
· 你认为是否应该在宪法中加入修正条款以保护胎儿生命?
当调查中使用“禁止女性堕胎”来提问时,29%的被访者对修正宪法表示支持;然而,当调查中使用“保护胎儿生命”这样的措辞进行询问时,50%的被访者对修正宪法表示支持。在这个例子中,第二种提问被称为倾向性问题(slanted question),这是一种诱导特定答案的问题。
人们也应该小心提防导向性民意调查(push polls),这种调查在提出问题之前,民意调查者首先提出自己的观点。由于事先表明了自己的观点,所以无论提出的问题采用多么恰当的措辞,调查结果都会出现明显的倾向性,因为人们总是习惯于不加批判地接受来自于所谓专家的观点。
除此之外,民意调查中使用的问题应该尽量简单易懂,并且只涉及一个主题。暗设圈套的问题(loaded questions)与暗设圈套的问题谬误一样,包含了不止一个问题,但却只允许一个答案。例如下面的例子:
社区学院是否应当致力于增加入学申请人的多样性,而不应该过度追求学生的生源质量。
这句话其实包含了两个问题。你可能会赞同学校应该努力扩大招生范围,使各类学生都有机会入校学习(第一个问题),但同时你也认为这种做法与学生的生源质量无关,或者不会影响学生的生源质量(第二个问题)。与此类似,民意调查中的问题也应该避免出现这种假两难谬误,即将一个复杂问题的答案简化为两个简单的选项。
州立大学目前正面临着财政危机。你觉得我们学校应该提高学生的学费,还是扩大班级规模?
这个问题就犯了假两难谬误,因为除了提高学生学费和扩大班级规模之外,还有其他解决资金困难的方法。例如,学校发展办公室可以发动有钱的校友为学校募捐资金。
自我服务偏见也会导致调查结果失真。民意调查的真实性依赖于被访者是否真实作答。正像本书在第4章中提到的,大多数人认为自己是公平和善良的(无论是否属实)。如果在调查中向被访者提问“你是一个种族主义者吗?”,几乎所有人,甚至包括3K党成员在内都会做出否定回答。为了避免出现这类错误,所提问题的措辞不应该让被访者感到自我形象受到威胁。
人们也倾向于给出符合社会主流观点的回答,或者根据主观猜测给出民意测验者希望得到的答案。比如,许多男性认为,性生活频繁和多性伴侣是男子气概的象征,而对于女性来说,如果她们有相同的行为就会被贴上“荡妇”的标签。因此,在民意调查中,男性倾向于夸大自己发生性行为的次数,而女性则恰恰相反,倾向于隐瞒自己邂逅情人的次数。调查结果显示,男性和女性的答案之间存在非常显著的差异,双方不可能都如实回答该问题。
将概括运用到具体个案中
当对某一类群体中的成员进行论证时,对该总体的概括可以用作论证的前提。
将关于总体的概括正确运用到具体个案中是一种能力,它有助于人们在生活和个人关系中做出更好的决定。比如下面的例子:
我本来打算送给妻子一个新的浴室秤作为情人节礼物,但后来我读到一篇文章,说大多数女人更喜欢出去吃一顿浪漫的晚餐。所以,我决定改请她去里兹饭店吃晚餐。与浴室秤相比,她应该更喜欢这个礼物。
将这一论证分解并用图形表示如下:
①[我本来打算送给妻子一个浴室秤作为情人节礼物],但后来我读到一篇文章,②[说大多数女人更喜欢出去吃一顿浪漫的晚餐]。③[与浴室秤相比,她应该更喜欢这个礼物]。
前提2是基于对总体(全部女性)的概括。在这个例子中,丈夫在这项前提的基础上得出结论,妻子(作为总体的成员之一)也应该更喜欢以出去吃晚餐的方式度过情人节。
将对总体的概括运用到个体成员身上时,常常利用统计学知识考察总体中某一特征的普遍程度。总体所具备的某项特征的普遍程度越高,个体与该项特征符合的可能性就越大。
研究表明,公司高级行政人员的身高总是明显高于普通职员。因此,安娜·盖伯尔,时尚电子公司的首席执行官,很可能高于美国女性的平均身高——162厘米。
美国总统候选人身高比较
在运用概括前,首先应该确定自己是否清楚最初做出的概括适用于哪些人群。在下面这个例子中,说话者错误地运用了对多发性硬化症(MS)患者总体的概括,得出了关于普通人群的结论。
被诊断患有多发性硬化症的人,大多数是20岁至30岁之间的女性。你是一名女性,刚刚年满20岁。因此,在你30岁之前,你很可能患上多发性硬化症。
在这个例子中,第一次表现出多发性硬化症状的病人,大都是20岁至30岁的女性,这个事实并不一定意味着大多数女性在20岁至30岁之间会患上多发性硬化症。实际上,从世界范围来看,女性患上多发性硬化症的比例只有0.3%(平均每1000名女性中有3名患者)。因此,无论女性处在哪个年龄段,患上多发性硬化症的可能性都是非常低的。
运用概括来评价归纳论证
正如所有的归纳论证,概括没有正确与错误之分;只有强弱之别。下面这一节将重点介绍使用概括评价论证的五个不同标准。
1. 前提是正确的。可靠的证据是保证前提正确的基础。如果研究设计存在缺陷,前提就可能出现错误,比如1936年《文学文摘》进行的总统大选调查。如果前提是基于公众的误解与偏见,而不是事实的证据,前提也有可能出现错误。例如下面这个例子:
大多数恋童癖是同性恋。因此,在狱中被杀死的猥亵儿童罪犯——波士顿前天主教牧师约翰·吉欧根很可能是同性恋,就像所有其他被判猥亵儿童罪的牧师很可能是同性恋一样。
在这个例子中,“大多数恋童癖是同性恋”这个前提是错误的。正像本书在第1章中提到的那样,良好的批判性思维者在做出最终结论之前,务必确保得到的信息是准确的,资料的来源是可靠的。研究表明,男同性恋者并不比男异性恋者更可能猥亵儿童,甚至相反,他们猥亵儿童的可能性更低。例如,一项在马萨诸塞州开展的研究发现,在犯有猥亵儿童罪的成年男性中,同性恋者所占比例不足1%。而根据美国卫生与公共服务部的调查,普通人群中的这一比例约为2.3%,明显高于同性恋者。
2. 样本量足够大。样本的容量越大,结论的可靠性越高,这是一条一般性的规律。当样本容量非常小时,就容易出现以偏概全谬误(fallacyof hasty generalization)。例如,美国一名高中学生获悉,自己的三名同学刚刚被美国一流的四年制大学录取。而巧合的是,这三位同学的父母都是拥有研究生学位的专业人员。从这三个小样本中,这名学生匆忙得出结论,她没有必要再花费精力去申请这所大学了,因为自己的父母只是从来没有上过大学的个体工商户。而实际上,在大学新生的父母中,拥有研究生学位的比例大约只有20%,而学历水平属于高中及以下的比例则是28%,要高于拥有研究生学位的比例。
3. 样本具有代表性。样本应当对研究的对象具有代表性。如果样本的代表性不强,论证的说服力就会下降(参见“分析图片:盲人摸象”)。样本容量大并不意味着一定具有代表性。例如,在20世纪80年代以前,几乎所有的药物临床实验只针对男性,女性则被完全排除在外。究其原因,不仅是因为担心女性可能在实验期间怀孕,而且还因为男性是人类标准的文化假设。由于这种错误的假设,临床药物有时并不适用于女性,导致女性患者有时难以得到良好的治疗。
其他原因也可能导致样本缺乏代表性。例如,在做民意调查时,人们倾向于将易于受访的人群作为调查对象。在实施电话调查时,访问员应该保证大多数人都处于工作时间,所以往往选择在每周的某天或者每天的某个时间段进行访问。此外,年轻人由于更习惯使用手机也被排除在受访对象之外,因为手机号码不在电话簿列表之内。
4. 样本及时更新。样本可能会由于过时而失去代表性。长期以来,人们一直认为由于海洋足够广阔,潮汐能够清理掉所有进入河流和海湾的污染,这个结论的依据是几十年前从美国沿海湾取得的海水样本。
多年来,由于检测海水纯净度的样本数据一直未进行更新,海湾中日益严重的污染问题未得到美国人的重视。当以往的样本有助于分析事物的变化趋势时,可以使用这些数据帮助人们对现在的总体进行概括,但务必保持小心和谨慎。
5. 前提支持结论。结论应该与前提保持逻辑上的一致性,不应当超出前提所涉及的范围。例如下面这个例子:
由于男性一般比女性更强壮,所以女性不应该在军队中执行战斗任务。
在这个例子中,结论与前提并不一致,因为在战斗中身体是否强壮并非是必要因素或者非常重要的影响因素。此外,即使是,有些女性也比某些男性更强壮。
如果得到正确使用,概括是一种非常有用的归纳逻辑方法。在做出概括时,保证前提的正确性是非常重要的。此外,样本容量应该足够大,有充分的代表性并且是最新的。
在美国,女性是否能够参与战斗任务长期以来一直饱受争议,但是人们表示支持或反对的理由是否正确呢?
分析图片
盲人摸象 佛经里有一则寓言,几个盲人来到一头大象前。其中一个盲人摸了摸象鼻子说道:“大象像蛇。”“不对,”第二个盲人回答道,他用手臂抱住了大象的腿,“大象的形状应该像树干。”“胡说八道,”第三个盲人打断了两人的谈话,他正在用手上下抚摸大象的尾巴。“它们更像一条绳子。”
讨论问题
1. 在讨论大象的形状时,为什么每个盲人都给出了截然不同的答案?他们该如何使用批判性思维技巧以得出更合理的结论?
2. 你是否曾基于有限的经验而做出概括,并因此与人发生争论?描述你的经历。