里程碑四：2001神经语言模型（Neural language models）

2018年11月15日　　来源：量子位　作者：　提供人：t.call.p@126.c......

2.4 里程碑四：2001神经语言模型(Neural language models)

语言模型解决的是在给定已出现词语的文本中，预测下一个单词的任务。这是最简单的语言处理任务，有许多具体实际应用，如智能键盘、电子邮件回复建议等。语言模型历史由来已久，经典方法基于n-grams模型(利用前面n个词语预测下一个单词)，并利用平滑操作处理不可见的n-grams。

第一个神经语言模型，前馈神经网络(feed-forward neural network)，是Bengio等人于2001年提出的。模型以某词语之前出现的n个词语作为输入向量，也就是现在大家说的词嵌入(word embeddings)向量。这些词嵌入在级联后进入一个隐藏层，该层的输出然后通过一个softmax层。如图3所示。

△前馈神经网络语言模型

而现在构建语言模型的前馈神经网络，已被循环神经网络(RNNs)和长短期记忆神经网络(LSTMs)取代。

虽然后来提出许多新模型在经典LSTM上进行了扩展，但它仍然是强有力的基础模型。甚至Bengio等人的经典前馈神经网络在某些设定下也和更复杂的模型效果相当，因为这些任务只需要考虑邻近的词语。理解这些语言模型究竟捕捉了哪些信息，也是当今一个活跃的研究领域。

语言模型的建立是一种无监督学习(unsupervisedlearning)，Yann LeCun称之为预测学习(predictivelearning)，是获得世界如何运作常识的先决条件。

关于语言模型最引人注目的是，尽管它很简单，但却与后文许多核心进展息息相关。反过来，这也意味着NLP领域许多重要进展都可以简化为某种形式的语言模型构建。但要实现对自然语言真正意义上的理解，仅仅从原始文本中进行学习是不够的，我们需要新的方法和模型。

自然语言处理 / NLP

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。