自然语言处理技术发展史十大里程碑
文|秦陇纪,参考|黄昌宁、张小凤、Sebatian Ruder
自然语言是人类独有的智慧结晶。
自然语言处理(NaturalLanguage Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。
由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以自然语言处理,也被视为解决人工智能完备(AI-complete)的核心问题之一。对自然语言处理的研究也是充满魅力和挑战的。
微软亚洲研究院黄昌宁、张小凤在2013年发表论文,就过去50年以来自然语言处理(NLP)研究领域中的发现和发展要点进行阐述,其中包括两个事实和三大重要成果。
近年来,自然语言处理的语料库调查显示如下两个事实:
(1)对于句法分析来说,基于单一标记的短语结构规则是不充分的;单个标记的PSG规则不足以进行自然语言描述;
(2)PSG规则在文本语料库中具有偏差分布,即PSG规则的总数似乎不能够涵盖大型语料库中发现的语言现象,这不符合语言学家的期望。短语结构规则在真实文本中的分布呈现严重扭曲。换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先人们的预期大相径庭。
NLP技术发展历程在很大程度上受到以上两个事实的影响,在该领域中可以称得上里程碑式的成果有如下三个:
(1)复杂特征集和合一语法;
(2)语言学研究中的词汇主义;
(3)语料库方法和统计语言模型。业内人士普遍认为,大规模语言知识的开发和自动获取是NLP技术的瓶颈问题。因此,语料库建设和统计学习理论将成为该领域中的关键课题。