2.4 里程碑四:2001神经语言模型(Neural language models)
语言模型解决的是在给定已出现词语的文本中,预测下一个单词的任务。这是最简单的语言处理任务,有许多具体实际应用,如智能键盘、电子邮件回复建议等。语言模型历史由来已久,经典方法基于n-grams模型(利用前面n个词语预测下一个单词),并利用平滑操作处理不可见的n-grams。
第一个神经语言模型,前馈神经网络(feed-forward neural network),是Bengio等人于2001年提出的。模型以某词语之前出现的n个词语作为输入向量,也就是现在大家说的词嵌入(word embeddings)向量。这些词嵌入在级联后进入一个隐藏层,该层的输出然后通过一个softmax层。如图3所示。
△前馈神经网络语言模型
而现在构建语言模型的前馈神经网络,已被循环神经网络(RNNs)和长短期记忆神经网络(LSTMs)取代。
虽然后来提出许多新模型在经典LSTM上进行了扩展,但它仍然是强有力的基础模型。甚至Bengio等人的经典前馈神经网络在某些设定下也和更复杂的模型效果相当,因为这些任务只需要考虑邻近的词语。理解这些语言模型究竟捕捉了哪些信息,也是当今一个活跃的研究领域。
语言模型的建立是一种无监督学习(unsupervisedlearning),Yann LeCun称之为预测学习(predictivelearning),是获得世界如何运作常识的先决条件。
关于语言模型最引人注目的是,尽管它很简单,但却与后文许多核心进展息息相关。反过来,这也意味着NLP领域许多重要进展都可以简化为某种形式的语言模型构建。但要实现对自然语言真正意义上的理解,仅仅从原始文本中进行学习是不够的,我们需要新的方法和模型。