• 精选
  • 会员

机器翻译领域可能取得的进步

2021年10月1日  来源:表象与本质 作者:[美]侯世达;[法]桑德尔 提供人:zhaotou97......

机器翻译领域可能取得的进步

前文论证了贯穿沃伦·韦弗《多种语言下的爱丽丝》一书的观点,即若想翻译得当,类比的选择是重中之重。为了想出可行的类比,并评判其是否合适,必须仔细利用全部的思维资源,包括人生经验。

机器翻译也能这么做吗?有没有可能出现那么一天,计算机程序也能作出如此高超的翻译?几十年前,有些研究机器翻译的学者对该领域取得的成就感到不满,开始质疑整个领域使用的方法——绝大多数是字词匹配与语法规则,他们开始另辟蹊径。其中最具活力的想法便是基于统计的翻译,如今这已是解决翻译挑战的重要策略。

这个方法基于统计进行有根据的猜测。所有这些猜测都基于存储着海量双语文本的数据库,而这些文本都是经由人类专家仔细翻译的。一个典型的例子便是联合国平行语料库。该语料库包含六种语言,即阿拉伯文、英文、西班牙文、法文、俄文,以及中文。这样的数据库是语言信息的绝妙宝库,但必须有人懂得如何利用它。

基于统计的机器翻译的基本原理是,把一段输入的文本,也就是要翻译的文本,切分成“块”,并根据各“块”所处的语境,选出最恰当的意思。每个“块”可能是一个字或是一个或多个词。试想,这个引擎正在把中文翻译成英文。在双语数据库中中文的一侧,待译的中文块可能出现在上千种不同的语境之中。但在这上千种语境中,只有一小部分语境与原文的语境足够“相似”,比如说,只有20个。在此,“相似”与否是基于复杂的统计计算得出的。通过统计相似度来缩小范围的过程是这个方法的关键。在这种经由人工翻译的双语数据库中,每一段中文文本都有相应的英文文本。整个翻译问题看似被简化成了在文本中寻找对应的语块。可惜,这个想法太过乐观。通常来说,不存在明确对应的英文块,而是有很多备选方案。因此,一个好的候选需要有根据的猜测,比如进一步的统计计算,在此,我们忽略这些细节。简言之,这种基于密集计算的办法,利用了数据库中海量人工翻译文本的优势,那个与中文块“最接近”的英文块便是最终答案。

可以这样描述上文提到的翻译算法:通过复杂高效的计算,针对文本的各个语块,不断在两种语言间作出类比。在这个基础上,2017年,谷歌又进一步推出了基于神经网络的机器翻译。消息一出,立刻被赞为机器翻译领域的飞跃。简言之,就是通过建立多层的人造神经网络,使整个程序拥有了“深度学习”的能力。这个办法到底如何,一试便知。

这里选取了一段中文文本,并将其译成英文。中文文本出自杨绛先生的《我们仨》。这是一本十分感人的回忆录,讲述了杨绛与钱锺书,以及女儿的故事。这本书的语言并不晦涩难懂,行文流畅,时常穿插着有趣的成语。我们随机选取了书中的一段话,交给谷歌翻译,里面并不涉及艰深的成语。下面是中文原文,以及2017年谷歌翻译的结果。

杨绛:

锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校,仍兼管研究生。

毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。

事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:

“他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。”

谷歌翻译,2017-01:

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do“South study walking”. This is not a good thing to do, not for meritorious service, but for nothing.

首先,谷歌翻译的第一段中并没有译出锺书的名字“Zhongshu”,而是全部以“he”指代。这个错误相当奇怪,为此让谷歌翻译重新译了第一句话,得到的结果是:“A year later, Chung went to work in Tsinghua.”不知出于什么原因,谷歌只译出了锺书名字的一半,而且并不是中国大陆通用的译法。请注意,整句话的意思也是错的,并不是在一年之后!因此,进一步缩短了输入的内容,只翻译前七个字,得到的结果是:“Chung Shu to work in Tsinghua。”这回倒是翻译出了锺书的整个名字,但却把他的名字一分为二,把首字母都变为了大写。这种做法是一种错误的理解,把“Chung”看成了姓,把“Shu”看成了名。最终,只让谷歌翻译他的名字,即文本的前两个字,终于得到了“Zhongshu”这个结果。

继续看后面的译文。“He is still a graduate student”,谷歌把锺书错当成了研究生。紧接着又是关于人名的错误。“Mao Tse Translation Committee”,在此,谷歌又只译出了毛泽东名字的一半。毛选翻译委员会的领导又是哪位同志呢?谷歌的回答是:“Xu YongJian。”实际上,应该是徐永煐(“Xu Yongying”)。再看看下面这句话——“the book of fear in the book said to me”,简直是驴唇不对马嘴,毫无道理可言。谷歌再一次只译出了锺书名字的一半,而且这回真把他当成“书”(book)了。

谷歌翻译的最后一句话又是错得离谱,这真的是翻译吗?按照科学家沃尔夫冈·泡利(Wolfgang Pauli)的说法,这连错误都算不上。

为了测试机器翻译可能的进步,作为对比,在2018年又使用同一中文文本,让谷歌翻译译成了英文。下面便是最新的结果。

谷歌翻译,2018-02:

After one year of working in Tsinghua University, Zhong Shu was transferred to Mao’s translation committee to live in the city and back to school on weekends. He still holds the post of graduate student.

The leader of the Mao Selected Translation Committee is Comrade Xu Yonglian. Introducing Zhong Shu to do this job is Tsinghua classmate Qiao Guanghua.

On the appointed day, after dinner, an old friend hired a rickshaw to come from the city to congratulate. After the guests go, Zhong book said to me in fear:

He thought I had to do a“Southern study walk.” This is not a good thing to do.

与之前的译文相比,可以看出,谷歌翻译在这一年的时间里有了一定的进步。谷歌终于在第一段译出了锺书的名字。不过“Zhong Shu”这种译法还是错误的理解,把“锺”当成了姓,把“书”视作了名。而且,他还是一名“研究生”。

后文还是充斥着人名的错误。这回,毛选翻译委员会的领导又变成了“Xu Yonglian”同志,惶恐的“书”这次还多了一个姓。最后,也许谷歌真的“懂了”翻译这件事也是不好做的,“不求有功,但求无过”干脆直接跳过不译。总的来说,再次套用泡利的说法,这可算不上是进步。

最后,给出来自人类的译文。这段译文出自侯世达,事实上,他正在翻译《我们仨》全书。

侯世达:

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

“He thought I was going to become a ‘South Study special aide. 相反,说出漫画类比的人,通常不知道自己想出这个类比的原因。此外,在意识之下,大量无意识的类比如同旋涡一般,不断地出现和消失,一直搅动着我们的思维。对此,我们一无所知。这些就是在第5章提到的操纵着我们的类比。上一章和这一章共同描绘出的画面如同一个连续体,在我们与思维之间延伸着。我们和思维对着彼此发号施令,但在这个连续体上不论望向何处,都会发现作类比的过程是操作的基本原则。

虽然嘴上说着有些类比是“被操纵的”,是“仔细雕琢”出来的,但我们还是不得得到它们的表象之下才能找出潜藏的源头。如前所述,有意雕琢出的类比源于自发的、无意识的类比联系。这意味着,尽管我们自认是幕后提线的人,实际上却不过是木偶,只是意识不到身上的线罢了。我们觉得是自己有意作出类比来表达某种观点,但实际上恰恰相反:我们的观点来自大量潜藏的类比,是它们赋予了我们看待事物的角度。

因此,当那位棒球解说员自然地说出“想要击中山迪·柯法斯投出的球,就像用叉子喝咖啡一样”这句话的时候,他之所以能想出这幅生动的画面,是因为在无意之间,看到了一个东西(球棒)和另一个东西(棒球)失之交臂。正是这个隐含的抽象概念框架让他建立起了类比的桥梁,把真实情境(对球挥棒但错过了)与想象中的幽默情境(咖啡从叉子的分叉之间漏下)联系在一起。

简言之,尽管我们告诉自己,我们才是对类比发号施令的人,但事实刚好相反:我们处在自己拥有的大量无意识类比的股掌之中。这就像是一个有权有势的统治者,实际上是在顺从民心。因为,若他总是反对自己的人民,很快就会被人赶下宝座。到头来,才发现这位权倾一时的“领导”,只不过是一个眼观六路的随从。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000