2.2 里程碑二:1966词汇主义
NLP领域第二个里程碑式贡献是词汇主义(lexicalism)。
1966年,韩礼德(Halliday)提出词汇不是用来填充语法确定的一套“空位”(slots),而是一个独立的语言学层面;词汇研究可以作为对语法理论的补充,却不是语法理论的一部分,他主张把词汇从语法研究中独立地分离出来。
语言学家Hudson宣称,词汇主义是当今语言学理论头号发展倾向。出现原因也同上节两事实有关。词汇主义方法不仅提出一种颗粒度更细的语言知识表示形式,而且体现一语言知识递增式开发和积累的新思路。
首先解释一个背景矛盾。
一方面,语言学界一向认为,不划分词类就无法讲语法,如前面介绍的短语结构语法,语法“不可能”根据个别单独的词来写规则。但是另一方面,人们近来又注意到,任何归类其实都会丢失个体的某些重要信息。所以从前文提到的第一个事实出发,要想强化语法约束能力,词汇的描写应当深入到比词类更细微的词语本身上来。
换句话讲,语言学呼唤在词汇层采用颗粒度更小的描写单元。从本质上来说,词汇主义倾向反映了语言描写的主体已经从句法层转移到了词汇层;这也就是所谓的“小语法,大词库”的思想。下面让我们来看与词汇主义有关的一些工作。
2.2.1 词汇语法学(Lexicon-grammar)
法国巴黎大学Gross教授60年代创立研究中心LADL(http://www.ladl.jussieu.fr/),提出了词汇语法的概念。
把12,000个主要动词分成50个子类。
每个动词都有一个特定的论元集。
每一类动词都有一个特定的矩阵, 其中每个动词都用400个不同句式来逐一描写(“+”代表可进入该句式;“-”表示不能)。
已开发英、法、德、西等欧洲语言的大规模描写。
INTEX是一个适用于大规模语料分析的工具,已先后被世界五十多个研究中心采用。
2.2.2 框架语义学(Frame Semantics)
Fillmore是格语法(Case Grammar)创始人,前几年主持美国自然科学基金的一个名为框架语义学的项目(http://www.icsi.berkeley.edu/~framenet)。该项目从WordNet上选取了2000个动词,从中得到75个语义框架。例如,动词”categorize”的框架被定义为:
一个人(Cognizer)把某个对象(Item)视为某个类(Category)。
同原先的格框架相比,原来一般化的动作主体被具体化为认知者Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增加了一个作为分类结果的语义角色Category。
项目组还从英国国家语料库中挑出50,000个相关句子,通过人工给每个句子标注了相应的语义角色。例句:
Kimcategorized the book as fiction.
(Cog) (Itm)(Cat)
2.2.3 WordNet
WordNet(http://www.cogsci.princeton.edu:80/~wn/)是一个描写英语词汇层语义关系的词库,1990年由普林斯顿大学Miller开发。至今有很多版本,全部公布在因特网上,供研究人员自由下载。
欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层语义关系。WordNet刻意描写的是词语之间的各种语义关系,如同义关系(synonymy)、反义关系(antonymy)、上下位关系(hyponymy),部分-整体关系(part-of)等等。
这种词汇语义学又叫做关系语义学,这一学派同传统的语义场理论和和语义属性描写理论相比,其最大的优势在于第一次在一种语言的整个词汇表上实现了词汇层的语义描写。这是其他学派从来没有做到的。其他理论迄今仅仅停留在教科书或某些学术论文中,从来就没有得到工程规模的应用。下面是WordNet的概况:
95,600条实词词型(动词、名词、形容词)
被划分成70,100个同义词集(synsets)
2.2.4 知网网(How-Net)
知网是董振东和董强设计的一个汉语语义知识网(http://www.keenage.com),访问只有主页。
自下而上地依据概念对汉语实词进行了穷尽的分类。
15,000个动词被划分成810类。
定义了300个名词类,100个形容词类。
全部概念用400个语义元语来定义。
知网特点是既有WordNet所描写的同一类词间语义关系(如:同义、反义、上下位、部分-整体等),又描写不同类词之间的论旨关系和语义角色。
2.2.5 MindNet
MindNet是微软研究院NLP组设计的词汇语义网(http://research.microsoft.com/nlp/),用三元组(triple)作为全部知识的表示基元。一个三元组由两个节点和一条连接边组成。每个节点代表一个概念,连接两个概念节点的边表示概念之间的语义依存关系。全部三元组通过句法分析器自动获取。
具体通过对两部英语词典(Longman Dictionaryof Contemporary English,AmericanHeritage Dictionary)和一部百科全书(Encarta)中的全部句子进行分析,获得每个句子的逻辑语义表示(logical form,简称LF)。
而LF本来就是由三元组构成的,如(W1, V-Obj,W2)表示:W1是一个动词,W2是其宾语中的中心词,因此W2从属于W1,它们之间的关系是V-Obj。比如(play, V-Obj,basketball)便是一个具体的三元组。又如(W1, H-Mod,W2),W1代表一个偏正短语中的中心词(head word),W2是其修饰语(modifier),因此W2从属于W1,它们之间的关系是H-Mod。
这种资源是完全自动做出来的,所得三元组不可能没有错误。但是那些出现频度很高的三元组一般来说正确。MindNet已经应用到像语法检查、句法结构排歧、词义排歧、机器翻译等许多场合。