对计算智能的新认识:从复杂算法到简单算法#
“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”。
只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题——“大数据时代需要的是更多的数据还是更好的模型?”
机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种算法,但应用效果并不理想。IBM 有能力将《人民日报》历年的文本输入电脑,试图破译中文的语言结构。
例如,实现中文的语音输入或者中英互译,这项技术在 20 世纪 90 年代就取得突破,但进展缓慢,在应用中还是有很多问题。近年来,Google 翻译等工具改变了“实现策略”,不再依靠复杂算法进行翻译,而是通过对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。
他们并不教给电脑所有的语言规则,而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则。这些翻译结果源自图书、各种机构(如联合国)及世界各地的网站。
他们的电脑会扫描这些语篇,从中寻找在统计学上非常重要的模式,即翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式,今后它就能使用这些模式来翻译其他类似的语篇。
通过数十亿次重复使用,就会得出数十亿种模式及一个异常聪明的电脑程序。但是对于某些语言来说,他们能够使用到的已翻译完成的语篇非常少,因此 Google 的软件所探测到的模式就相对很少。这就是为什么 Google 的翻译质量会因语言对的不同而不同。
通过不断向电脑提供新的翻译语篇,Google 就能让电脑更加聪明,翻译结果更加准确。