• 精选
  • 会员

一、NLP研究传统问题

2018年11月15日  来源:量子位 作者: 提供人:t.call.p@126.c......

一、NLP研究传统问题

自然语言处理(NLP)是计算机科学、信息工程和人工智能的子领域,涉及计算机和人类(自然)语言之间的交互,尤其是编程实现计算机处理和分析大量自然语言数据。自然语言处理的挑战包括语音识别,自然语言理解和自然语言生成。

信息输入、检索、人机对话等需求增多,使自然语言处理(NLP)成为21世纪初的热门学科。从50年代机器翻译和人工智能研究算起,NLP至今有长达半个世纪的历史了。

近年来这一领域中里程碑式的理论和方法贡献有如下三个:

(1)复杂特征集和合一语法;

(2)语言学研究中的词汇主义;

(3)语料库方法和统计语言模型。

这三个成果将继续对语言学、计算语言学和NLP的研究产生深远影响。为了理解这些成果的意义,先介绍一下两个相关事实。

自然语言处理中识别句子句法结构的句法分析的全过程:

(1)把句子中的词一个一个地切分出来;

(2)查词典,给句子中的每个词指派一个合适的词性(part of speech);

(3)用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。

(4)判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。

1.1 事实一:语言的结构歧义问题

第一个事实(黄昌宁,张小凤,2013)是:短语结构语法(PhraseStructure Grammar,简称PSG)不能有效地描写自然语言。

PSG在Chomsky的语言学理论[1]中占有重要地位,并且在自然语言的句法描写中担当着举足轻重的角色。但是它有一些根本性的弱点,主要表现为它使用的是像词类和短语类那样的单一标记,因此不能有效地指明和解释自然语言中的结构歧义问题。

让我们先来看一看汉语中“V+N”组合。假如我们把“打击,委托,调查”等词指派为动词(V);把“力度,方式,盗版,甲方”等词视为名词(N),而且同意“打击力度”、“委托方式”是名词短语(NP),“打击盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧义的句法规则:

(1) NP → V N

(2) VP → V N

换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类型歧义”。例如:

? 该公司正在招聘[销售V人员N]NP。

? 地球在不断[改变V形状N]VP。

下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规则对,如:

(3) NP → N V 例:市场调查;政治影响。

(4) S → N V 例:价格攀升;局势稳定。

其中标记S代表小句。

不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚至不能判断它们是不是在同一个短语中。也就是说,“N+V”词类序列可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。后面这种歧义称为“短语边界歧义”。下面是两个相关的例句:

? 中国的[铁路N建设V]NP发展很快。

? [中国的铁路N]NP建设V得很快。

前一个例句中,“铁路建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。这足以说明,基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。下面让我们再来看一些这样的例子。

(5)NP → V N1de N2

(6)VP → V N1de N2

其中de代表结构助词“的”。例如,“[削苹果]VP的刀”是NP; 而“削[苹果的皮]NP”则是VP。这里既有短语类型歧义,又有短语边界歧义。比如,“削V苹果N”这两个相邻的词,可能构成一个VP,也可能分处于两个相邻的短语中。

(7)NP → P N1de N2

(8)PP → P N1de N2

规则中P和PP分别表示介词和介词短语。例如,“[对上海]PP的印象”是NP; 而“对[上海的学生]NP”则是PP。相邻词“对P 上海N”可能组成一个PP,也可能分处于两个短语中。

(9)NP → NumPN1 de N2

其中NumP 表示数量短语。规则(9)虽然表示的是一个NP,但可分别代表两种结构意义:

(9a)NumP [N1de N2]NP 如:五个[公司的职员]NP

(9b)[NumPN1]NP de N2 如:[五个公司]NP 的职员

(10)NP → N1 N2N3

规则(10)表示的也是一个NP,但“N1+ N2”先结合,还是“N2 +N3”先结合,会出现两种不同的结构方式和意义,即:

(10a)[N1 N2]NPN3 如:[现代汉语]NP 词典

(10b)N1 [N2N3]NP 如:新版[汉语词典]NP

以上讨论的第一个事实说明:

! 由于约束力不够,单一标记的PSG规则不能充分消解短语类型和短语边界的歧义。用数学的语言来讲,PSG规则是必要的,却不是充分的。因此机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,其实都有某种不确定性。

! 采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界就此作出的最重要的努力。

1.2 事实二:词频统计的齐夫律

通过大规模语料的调查,人们发现一种语言的短语规则的分布也符合所谓的齐夫率(Zipf’s Law)

Zipf是一个统计学家和语言学家。他提出,如果对某个语言单位(不论是英语的字母或词)进行统计,把这个语言单位在一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对每个单元指派一个整数的阶次(rank) R。结果发现R和F的乘积近似为一个常数。即

F*R ≈ const (常数)

被观察的语言单元的阶次R与其频度F成反比关系。词频统计方面齐夫律显示,不管被考察的语料仅仅一本长篇小说,还是一个大规模的语料库,最常出现的100个词的出现次数会占到语料库总词次数(tokens)的近一半。

假如语料库的规模是100万词次,那么其中频度最高的100个词的累计出现次数大概是50万词次。如果整个语料库含有5万词型(types),那么其中的一半(也就是2.5万条左右)在该语料库中只出现过一次。即使把语料库的规模加大十倍,变成1000万词次,统计规律大体不变。

有趣的是,80年代英国人Sampson对英语语料库中的PSG规则进行统计,发现它们的分布同样是扭曲的,大体表现为齐夫率。也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现频度非常非常高;另一方面,规则库中大约一半左右的规则在语料库中只出现过一次。

随着语料库规模的扩大,新的规则仍不断呈现。Noam Chomsky曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目总是有限的,但据此生成的句子数目却是无限的。但语料库调查的结果不是这个样子。这个发现至少说明,单纯依靠语言学家的语感来编写语法规则不可能胜任大规模真实文本处理的需求,必须寻找可以从语料库中直接获取大规模语言知识的新方法。

几十年来,NLP学界曾发表过许多灿烂成果,有词法学、语法学、语义学的,有句法分析算法的,还有众多著名的自然语言应用系统。那么究竟什么是对该领域影响最大的、里程碑式的成果呢?

自然语言处理 / NLP

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000