1.在心智之眼中旋转意象
我们在处理哲学思想实验之前所面临的第一个挑战来自一些真实的实验,它们似乎可以恢复笛卡儿剧场的地位。过去20年里,在认知科学领域最激动人心和最精巧的研究中,有一些就关系到人类操作意象的能力,其中最早的是心理学家罗杰·谢泼德对如下这类图形(图10.1)的心智旋转速度所做的经典研究(Shepard and Metzler, 1971)。
图10.1
在原始实验中,研究者给被试显示这样成对的线条图,问他们这对线条图是不是同一形状的不同视图。你能马上做出判断,回答“是”。你是如何做到的?一个典型的回答是:“我在心智之眼中旋转其中一个意象,然后把它叠加到另一个上面。”谢泼德改变了配对图形之间的旋转角距,有些只需小角度调整,有的则须大幅度旋转,然后他测量被试在不同摆法下的平均反应时间。假设大脑中有某种类似的旋转意象过程发生,那么,旋转一个意象90°所花的时间,就是旋转45°的两倍(如果忽略加速与减速,保持匀速旋转)[1]。谢泼德的实验数据在很多条件下都很好地证实了这个假说。他和其他人接下来的数百次实验非常详尽地探索了大脑意象操作机制的行为,而且(我尽量谨慎地陈述仍有争议的共识)大脑中似乎确实存在心理学家斯蒂芬·科斯林(StephenKosslyn, 1980)所说的“视觉缓冲器”,它会通过强“意象式”的过程,或者用科斯林的话来说,准图画式的过程,进行图像转换。
这是什么意思?认知心理学家终究发现了笛卡儿剧场的存在吗?在科斯林看来,这些实验表明,建造意象以在内部显示,与从计算机内存文件中创建CRT上的图像,方式是一样的。一旦它们出现在内部屏幕上,那些需要完成特殊任务的被试就可以旋转、搜索它们并进行其他操作。但是,科斯林强调,他的CRT模型是一个隐喻。这大概让我们想起沙克隐喻式的“意象操作”才能。毫无疑问,沙克的计算机式大脑中没有笛卡儿剧场。为了更清楚地看到人脑中真实发生的情况,我们可以从一种非隐喻的模型着手——它太“强”反而显得不真实,然后我们一点点地从这个模型中“抽掉”不可取的属性。换句话说,我们准备采用科斯林的CRT隐喻,再逐渐引入对它的限制。
首先,考虑一个操作真实意象的真实系统,比如计算机制图系统,我们今天在数百种设备中都可以看到它们的影子:电视和电影的计算机动画,一些能让建筑师和室内装潢师在焦点视图中看到三维物体的系统,电子游戏,等等。工程师把他们的系统称为CAD(计算机辅助设计)系统。CAD系统是工程学的革命,不仅因为它们使绘图变得极其容易,就像文字处理器之于书写,而且因为工程师能用它们轻松处理和回答一些原本相当困难的问题。面对谢泼德根据图10.1所提出的问题,工程师可以在CAD系统的协助下做出回答,他先把两个意象摆放在CRT屏幕上,然后转动其中一个意象,再试着把它叠加到另一个之上。这个过程的一些细节是比较重要的。
每个被绘图的物体都作为一个虚拟三维物体进入计算机内存,这时物体会被分解为一项描述,以xyz坐标界定它的平面和边线,虚拟空间中每一个被占据的点都是“有序的”三维坐标值,被存储在计算机内存中。默认的观察者视点也作为同一虚拟空间的一个点进入计算机内存,同样由它自己的xyz坐标的三个数值来界定。下面有一个立方体绘图和一个视点(见图10.2),但重要的是记住:计算机唯一必须存储的是每个关键点的坐标值,它们组合成为更大的组群(比如立方体的每个面),以及每个面不同属性的编码信息(它的颜色、明暗、质地等)。旋转其中一个物体,然后在虚拟空间中移动它,这些步骤容易被计算出来,只要按常量调整物体的所有xyz坐标值即可——这种调整是简单的算术。这样,计算视线(视线决定了人们可以从虚拟视点看到物体的哪些面,它们看起来又是什么样子的)就是简单的几何学问题。计算本身很简单,但算起来很费力或“计算强度比较高”,而如果同时还要计算平滑曲线、明暗、反射光线和质地,就尤其如此。
图10.2
在高级系统上,不同的画面(frame)可以得到快速计算,快到足以在屏幕上制造视动,但条件是保持表征的图式性质。“隐线移除”(见图10.3)是一个运算过程,它使最终的意象在适当的位置上不再透明,以免谢泼德的立方体看上去像透明的内克尔(Necker)立方体,这个过程本身相对耗时,在一定程度上限制了可以“实时”制造的东西。比起我们每天在电视上看到的、由计算机制图产生的华丽而细腻的图像转换,意象的生成过程要慢很多,即便在超级计算机上也是如此;一个个的画面也必须储存下来,以备后来进行更快的显示,满足人的视觉系统的运动探测要求。[2]
这些三维的虚拟物操作器是人们珍爱的新工具和新玩具,它们的确是世界上的新事物,而不是我们头脑中早已存在的某物的电子拷贝。可以肯定的是,在进行意象活动时,我们的大脑中不会有任何过程与这里的数万亿次几何和算术运算相似,也没有任何别的东西能够产生它们所产生的那些细节丰富的动画片段——其中的理由我们在第1章探讨过。
图10.3隐线移除前和隐线移除后
大脑的这种限制是真实存在的,要真正明白这一点,我们可以考虑一个稍微不同的谢泼德问题,这个问题很容易在CAD系统的辅助下得到解决:物体的一个面上的“红色”X对于透过它前面墙上的小孔观察的人来说是否可见?(见图10.4)
我们这个带着X的谢泼德物体,是一个简单的图式物体;因为我们想回答的问题不牵涉质地、明暗和其他这类小细节,所以工程师很容易在CRT上制作该物体的旋转动画。观察者也能够以任何方向旋转图像,前后移动视点——只是为了能够透过小孔瞥见红色。如果他看到红色,答案就是肯定的,否则是否定的。
现在,你能在你的心智之眼中完成同样的实验吗?你能旋转所显示的物体,透过小孔看到那个X吗?如果你能,你就能做到我做不到的事,而我问过的所有人都没信心可以做到。甚至那些对此问题已有答案的人也很确定,他们仅凭旋转和扫视是无法看到它的。(他们往往会说,一开始他们试着旋转和扫视,但发现这并不管用;他们能“旋转它”,但在他们试图透过小孔去看时它就“分崩离析”了。然后,他们谈到,自己会透过小孔在未旋转的意象上“勾画出”一些视线,看自己能否知道这些线条连到背面的什么地方。)由于我们的谢泼德物体并不比许多实验中貌似可以成功旋转的物体复杂,这就产生了一个难题:什么类型的过程才能如此轻松地实现一些转换(然后从结果中提取信息),而在执行其他貌似没有更高要求的操作时却遭遇如此彻底的失败?(如果这些操作在我们看来要求不高,那么我们必定是从某个错误的观察点在看它们,因为我们的失败表明它们实际上要求更高。)
图10.4
心理学家丹尼尔·赖斯贝格(DanielReisberg)和德博拉·钱伯斯(Deborah Chambers)所做的实验,引出了一个大致相同的问题。在实验中,被试都自称精于想象意象,实验员给他们摆出一些“无意义的”形状,要求他们在心智之眼中从心理上将之旋转90°或180°,接着报告他们“看到”了什么。被试惊讶地发现,自己无法在心智之眼中看到这些你把本书顺时针旋转90°就能轻松看到的图形(见图10.5)。
图10.5
工程师用CAD系统来解答的问题,一般不像“透过小孔能否看到红色X”这么简单。通常来说,他们关注的是被设计物体更复杂的空间特性,例如:“这个有三个关节的机器手臂能够四处伸展,调节它背部的旋钮,而不碰到供电设备吗?”他们甚至关心这些物体的美学特性,例如:“旅馆休息厅的楼梯,在透过大玻璃窗向旅馆内看的路人眼里是怎样的?”在不借助任何设备而试图把这样一些场景直观化时,我们只能获得最粗略、最不可靠的结果,据此可以认为,CAD系统是一种想象假体(imagination-prosthesis)(Dennett,1982d, 1990b)。它极大地扩展了一个人的想象力,但它还是需要用户拥有正常的视觉:他要能看CRT才行。
现在,让我们试着想象一台雄心更大的假体设备:供盲人工程师使用的CAD系统!为了简单起见,我们假设,盲人工程师要解答的问题是相对简单的几何学问题,而不是与建筑美学有关的微妙问题。输出当然是非视觉形式的。对用户最友好的形式也许是用日常语言(用布莱叶点字法或合成语音)回答日常语言的问题。我们就此假设,在遇到我们刚才考虑的那种问题时,盲人工程师把句子传到CAD系统上(当然是以系统能够“理解”的方式),然后等着CAD系统提供答案。
我们的I型CADBLIND系统虽然不够精致,却清楚直接。它由一个包含CRT的普通CAD系统构成,在CRT前面有一个前设器——计算机视觉系统,还有对准CRT的电视摄像头和用来旋转CAD系统旋钮的机器人手指。[3]与沙克的CRT只为旁观者服务不同,这个系统确实在“看”图像,一个由闪动的磷光点形成的真实图像,它把真实的不同频率的光发射到电视摄像头后部的感光变换器上。当向它提出红色X的谢泼德问题时,I型CADBLIND系统就在它上面产生一个有真实红色X的图像,所有人都可以看到,包括前设器的电视摄像头。
我们干脆假设,前设器在自己内部就已经解决了足够多的计算机视觉问题,足以从CRT屏幕上闪动的表征中提取所要的信息。(不,我没打算说前设器是有意识的,我只想假设它能足够好地完成分内的工作,以至于能够回答盲人工程师对它提出的问题。)I型CADBLIND系统制造和操纵真实的意象,用它们来为盲人工程师回答视力正常的工程师在普通CAD系统的帮助下能够回答的所有问题。如果I型系统已经这么好,那么II型的设计就易如反掌了:我们只要扔掉CRT和盯着它看的电视摄像头,代之以一条简单的电缆就行!通过电缆,CAD系统把位图传给前设器;位图是0和1的阵列,用于界定CRT上的图像。在I型系统的前设器中,这个位图是根据摄像头中的光学变化器的输出精心重构出来的。
II型在运算方面的节省极少——只是除去某个不必要的硬件。视线、隐线移除、质地渲染、阴影和反射光线在I型中需要大量的精细计算,在II型中,它们同样是过程的一部分。假如要求II型中的前设器通过比较质地成分或诠释阴影来做一个深度判断,它就必须分析位图上相关部分的比特模式,以获得对质地和阴影的区分。
这意味着II型仍是一台效率低得惊人的机器,因为,如果CAD系统早就“知道”位图上的一个具体部分应该表征一个阴影(如果这就是被CAD系统生成图像的物体的编码描述的一部分),并且这个事实是前设器在做深度判断时必须确定的一部分,那么CAD系统为什么不直接告诉前设器呢?当模式表示任务与模式分析任务相互抵消时,为什么还要为了前设器中的模式分析器去不厌其烦地表示阴影呢?
我们的III型CADBLIND系统免除了图像表示的大型运算任务,它获取它所知道的关于被表征物体的许多信息,并将其直接传到前设器子系统,用简单的编码格式表示特性,把“标签”贴到位图阵列的不同“位置”,于是位图就从纯粹的图像转变成一个像图表一样的东西。一些空间特性直接在位图的(虚拟)空间中被表征——被展示,其他特性则只是靠标签来讲述。[4]
这让我想起我在第5章提出的主张:大脑只需做出一次区分,被鉴别的特征不必为了笛卡儿剧场中的主鉴赏者而再次显示。
但是,现在我们可以看到这个工程不同的一面:只有需要交流的系统能够“说同一种语言”时,“相互抵消”才会起作用。如果CAD系统已经“知道”的相关信息(比如某物是一个阴影)的格式,不是前设器“使用”该信息时的格式,那会怎样?[5]于是,为了使交流发生,可能需要“以退为进”。为了相互作用,系统可能需要进行浪费信息的(你可以说是冗长的)交流。想象你为陌生人画张草图指路,此时他唯一需要知道的就是(如果你知道该怎么用他的语言来说就好了),“在下一个红绿灯处向左拐”。花一些精力制作某种像图像的东西,这在实践中常常是必要的,即使它“在原则上”不必要。
我们大脑里的系统是若干重叠的历史的产物:机会主义的修补历史、自然选择的长期历史,以及个体通过自我控制进行重新设计的短暂历史。因此,我们应该预料到会发现这种无效率的情况。此外,还有别的理由来说明为什么要以图像类的格式来表示信息(除了纯粹的乐趣以外);如果我们偶然发现这些理由,它们很快就会给我们留下一种印象,即图像制作在任何情况下都值得耗时费力。正如我们在第7章关于“给自己画图”的推论中所指出的,这种格式转换是提取信息的高效方法——要不是它,信息几乎就不可能从数据中被提取出来。图表确实相当于信息的再显示,不是向内在之眼显示,而是向内在的模式识别机制显示,这个机制同样能接收正常的(“外部的?”)眼睛的输入。这就是(计算机)绘图技术在科学中如此重要的原因。它们能让大量的数据列显示在一种格式中,让人类视觉杰出的模式识别能力执掌大局。我们绘制图像并用各种颜色编码标图,以便我们想要的规则性和显著性通过视觉系统在我们眼前“跳出”。图表不仅能够帮助我们看到自己原本也许无法感知的模式,还能帮助我们追踪重要的东西,提醒我们在适当的时候提出适当的问题。瑞典人工智能专家拉尔斯——埃里克·扬勒特(Lars-ErikJanlert, 1985)论证说,这样的图像生成和细读在一个计算机中也能用来帮助我们解决一些原本非常棘手的问题,即在“原则上”纯属演绎引擎的各种系统中的推理——管理问题。(关于同一过程的不同看法,参见Larkinand Simon, 1987。)
许多心思巧妙的思考者早就知道这个策略,有史以来最聪明的人之一物理学家理查德·费曼(RichardFeynman)曾在1985年出版的《别闹了,费曼先生! 》(Surely You’re Joking, Mr. Feynman! )一书中,对此做过精彩的描述。在标题为“别具一格的工具箱”这一章中,他讲到自己如何令普林斯顿的研究生同学们惊叹不已:他能“凭直觉得知”拓扑学的深奥定理的正确和错误之处,而他完全不能从形式上推导出这些定理,甚至没有充分理解这些定理。
当有人解释某种我正试图理解的东西时,我不断构造例子——直到今天我还在使用这一策略。例如,数学家发现一条了不起的定理,他们兴高采烈。在他们向我说明定理的条件时,我就构造某个满足所有这些条件的东西。你知道,你有一个关于球的集合(一个球)——分开的(两个球)。然后,这些数学家添加更多条件时,在我的脑海里这些球就会变颜色、长出头发或其他什么的。最后他们陈述这一定理,其中一些关于球的虚构物不适用于我的有头发的绿色球,于是我说:“错!”
如果适用,他们就都会兴高采烈,而我会让他们接着讲一会儿,然后提出我的反例。
“哦,我们忘了告诉你它是类型2豪斯多夫同态。”
“哦,是这样呀,”我说,“那不重要!那不重要!”这时我就知道它是怎么回事了,即使我不知道类型2豪斯多夫同态是什么意思。(pp.85-86)
这类策略在某种程度上是“自然出现的”,但它们必须经过学习或有人发明,而且其中有一些人比另一些人更精于此道。在这些技巧上十分发达的人,大脑中有不同的虚拟机器,这些机器的力量明显不同于那些不频繁使用这些技巧或技巧不熟练的“视觉型人”。在他们的个体异现象学世界中也很容易看到这种差别。
因此,正如科斯林和其他人所主张的,我们有很好的理由认为,人类视觉系统的运行,不仅向自己显示真实的、外部的图像(就像CAD系统的CRT上显示的),而且向自己显示因人而异的、内在的虚拟图像或图表式的数据表征,后者适合作为原材料提供给视觉处理机制的某个或某些后来阶段。
究竟针对哪些内部交流和信息操作问题的哪些工程解决方案,是人类大脑偶然想到的?它们有什么优势和劣势?[6]这些都是经验性的问题,认知心理学关于表象的研究就在讨论它们,而且我们应该谨慎,不要为此提供一个先验的答案。[7]我认为,我们也许已经在自己的大脑中发现了I型意象操纵系统,它有一些闪动的磷光点和一个内部的感光眼。(就我目前所能看到的而言,这也不是不可能的:某个行星上的生物也许装备着这样的奇妙装置。)赖斯贝格和钱伯斯的实验也表明,我们的大脑偶然发现的捷径,完全排除了发现II型系统的可能:II型系统的位图格式从不利用捷径。(如果我们有这样一个系统,那么在我们的头脑中解决红色X难题就会是一件容易的事,旋转得克萨斯也会比较容易。)
现象学提供的线索指向两个方向:在大多数被试的现象学中“直觉上明显”的心理意象“草图”(sketchiness)指向了大脑对捷径的使用,在这种情况下大脑只讲述而不展示(tells-without-showing)。这对视觉知觉适用,对视觉化同样适用。我们在第3章中已经提到,画出眼前的一朵玫瑰,甚至复制一幅图画,之所以很困难,原因就在于:为了画好画,人们必须辨别或区分一些纯粹空间的特性,但这些特性在知觉加工处理的过程中一般都被放在后面,只是以报告的形式做出总结,而非以便于深入细读的形式呈现。此外,心理意象帮助我们“看到模式”或“提醒我们”原本也许被忘掉的细节,意象的这种有用性指向了大脑对视觉模式识别机制的使用,只有在大脑的某个部分费力地为那些视觉系统准备一些特殊格式版本的信息时,这种情况才会发生。正如我们在第1章中已经看到的,这类表征的信息处理要求很惊人,而我们不应该感到吃惊的是,我们很难使高度图式化的图表在我们的头脑中保持稳定。
这里有个简单测试可以提醒大家注意我们的能力其实多么有限:在你的心智之眼中玩横竖三格的填词游戏,把下面三个单词填入方格(见图10.6),从左列开始:GAS、OIL、DRY。
你能轻松地迅速读出水平栏中的词吗?如果它们是纸上的真实方格中的词,它们便会“凸显”在你眼前-你不可能看不到它们。这就是制作表格的要点所在:以一种格式显示数据,该格式使数据的新分解或分析变得容易或不可避免。横竖都是三列的字母符号不算是一个很复杂的数据结构,但它显然并不能被大脑牢牢把握,不足以让大脑视觉系统做出“凸显”它们的工作。(如果你还想再试一次,这里还有填充空格的两列单词:OPT、NEW、EGO和FOE、INN、TED。)
图10.6
然而,不同的视觉处理者利用的策略方面有个体差异,差异的变化范围也很大,有人也许会发现或发展一些成像策略,让自己能“快速读出”这些表格中的信息。计算天才可以学会在大脑中一次性地把几个十位数相乘,因此,如果有人能在他的心智之眼中发展出“填字游戏阅读”的天才能力,我们不必感到惊讶。这些非正式的论证给我们提供了一些启示,但实验能更敏锐地确定人们在这些自我操纵的行为中所使用的机制和过程类型。目前的证据支持的看法是:我们使用一种混合策略,既利用数组视觉分析的某些优点,同时也纳入充当捷径的标签,我们讲述而不展示。
II型CADBLIND系统是超图画的,纳入了一张位图,一个像素一个像素地表示颜色、明暗和质地。但请注意,即使在这里,也仍然可以在某种意义上说,它只“讲述”而不“展示”,而这种意义,正如我们将在下面两章中所看到的,在形而上学方面很重要。考虑我们的谢泼德图上的红色X(见图10.4)。在I型CADBLIND系统中,它以真正的红色表示——CRT发出光线,传送它就必须经过电视摄像头中的某个东西,类似你眼睛里对频率差异做出反应的视锥细胞。前设器来回旋转图像,搜寻从小孔中可以看见红色的地方,这时它就在等待它的红色探测器小妖喊出声音。在II型CADBLIND系统中,这个硬件被扔掉了,位图用数字表征每个像素的颜色。红色的影区也许就是颜色数字37。在II型中的前设器来回旋转位图时,它在透过小孔搜寻37。或者,换种说法,它是在问,是否有像素小妖能告诉它“颜色数字37在这里”。所有的红色都不见了——那里只有数字。最终,CADBLIND系统中的所有工作都必须通过比特串的算术运算来做,就如我们在第4章中沙克的最底层上所看到的那样。无论这些过程的准图画或意象式状态如何,它们最终都会变成前设器对问题所做的文字回答,但是,它们不会在一个内在的地方生成,好像失去的特性(只在位图中才“谈到”的特性)在这里以某种方式恢复,以便由谱写答案的裁决者来鉴赏。
人不是CADBLIND系统。CADBLIND系统可以在不需要借助笛卡儿剧场的情况下操纵和审视自己的“心智图像”,这一事实本身并不能证明人的大脑里没有笛卡儿剧场,但它确实证明,我们不是非得假设一个笛卡儿剧场,才能解释“在心智之眼中”解决问题的人类天赋。确实存在一些心智过程,与观察极为类似,但当我们去除科斯林的CRT隐喻中不必要的细节,直取其核心成分时,我们就除掉了那些也许会召唤笛卡儿剧场的特征。不必存在这样的时间和地方——“所有的东西汇聚在一起”以满足一个单一的、统一的判别者之需,各种区分完全可以以一种分布式的、不同步的、多层次的方式实现。