• 精选
  • 会员

NLP领域人类的巨人肩膀

2019年3月9日  来源:THU数据派 作者: 提供人:diliang24......

人类的巨人肩膀

大约在 20 万年前,人类祖先 FOXP2 基因的 2 处(相对于其他原始猿类,如下图)极其微小却又至为关键的突变,让人类祖先逐渐拥有了语言能力,从此人类逐渐走上了一条不同于其他所有动物的文明演化之路。

深度长文:详细归纳NLP领域中的巨人肩膀

而人类语言以及随后产生的文字也是人类区别于其他动物的一个至关重要的特征,它使得人类协同合作的能力变得极为强大,且让代际间经验与文化的传承效率大大提升。知名博主 Tim Urban——连大佬 Elon Musk 都是他的铁杆粉丝——在 2017 年 4 月发表的巨长博文中(其实也是为了商业互吹 Musk 的 Neuralink),Tim 分析了为什么语言能够加速人类文明的发展,并最终从几十万年前智能生命竞赛跑道上所有一切潜在对手中大比分强势胜出。

在这个过程中,语言起了非常关键的作用。在语言产生前,人类社会发展非常缓慢,表现为代际间的传承效率非常低下,而自从语言诞生以后,人类社会的发展速度得到极大的提升,这主要体现在父辈的生存技能和经验能够通过快速有效的方式传承给子辈,不仅如此,在同辈之间通过语言的沟通和交流,宝贵的经验也能够通过语言这种高效的媒介迅速传播到原始部落的每一个角落。于是,人类的每一代都能够得以在他们的父辈打下的江山上,一日千里,终成这颗蓝色星球上的无二霸主。

深度长文:详细归纳NLP领域中的巨人肩膀

深度长文:详细归纳NLP领域中的巨人肩膀

不过,我觉得 Urban 想说却并没有说出来的是,即便在人类语言诞生之前,人类祖先也可以通过可能已经先于语言而诞生的学习与认知能力,做到以“代”为单位来进行传承与进化,只不过不同于基因进化,这是一种地球生命全新的进化方式,在效率上已经比其他生物的进化效率高的多得多。

地球上自生命诞生以来一直被奉为圭臬的基因进化法则,往往都是以一个物种为单位,上一代花了生命代价学习到的生存技能需要不断的通过非常低效的“优胜劣汰,适者生存”的丛林法则,写进到该物种生物的基因中才算完事,而这往往需要几万年乃至几百万年才能完成。而在这个过程中,比其他物种强得多的学习能力是人类制胜的关键。

上面两个事实,前者说明了语言是加速文明进化的润滑剂,而后者说明了强大的学习能力是人类走出一条有人类特色的发展之路,从而脱离基因进化窠臼的最为重要的因素。

也就是说,对于人类而言,他们的父辈,同辈,以及一切同类,乃至大自然万事万物都是他们的“巨人肩膀”;而语言和学习能力则是人类能够站上“巨人肩膀”的“梯子”。

回到本文的主题,对于人类的钢铁“儿子”AI 来说,CV 和 NLP 是当前 AI 最火爆的两个领域之二,一个要解决钢铁“儿子”的视觉功能,一个要解决钢铁“儿子”的语言或认知能力,那么什么又是这个钢铁“儿子”的“巨人肩膀”和“梯子”呢?我们先来看看 CV 中的情况。

CV的巨人肩膀

ImageNet 是 2009 年由李飞飞团队邓嘉等人提出,并迅速发展成为 CV 领域最知名的比赛 ILSVRC。从 2010 年举办第一届,到 2017 年李飞飞宣布最后一届,前后总共举办 8 年,这八年间先后在这个比赛中涌现了一大批推动 AI 领域尤其是 CV 领域大发展的算法和模型。特别值得一提的是 2012 年 Hinton 团队提出了 AlexNet,超过当时第二名效果 41%,一下子引爆了 AI 领域,因此 2012 年也被称为“深度学习元年”。

深度长文:详细归纳NLP领域中的巨人肩膀

深度长文:详细归纳NLP领域中的巨人肩膀

随之而来,大家发现如果用已经在 ImageNet 中训练好的模型,并用这些模型中的参数来初始化新任务中的模型,可以显著的提升新任务下的效果。这种站在“巨人肩膀”上的方法已经被成功运用到很多 CV 任务中,诸如物体检测和语义分割等。不仅如此,更重要的是,这种充分使用预训练模型的方法可以非常便利地迁移到一些获取标注数据较为困难的新场景中,从而极大的改善模型对标注数据数量的要求,并降低标注数据的成本。

因此,利用大规模数据集预训练模型进行迁移学习的方法被认为是 CV 中的标配。以至于 2018 年的早些时候,大神何凯明所在的 FAIR 团队利用 Instgram 中数十亿张带有用户标签的图片进行预训练,而后将其在 ImageNet 的比赛任务中进行 fine-tune,取得了最好的成绩(arXiv:1805.00932)。只不过,由于预训练的数据过于庞大,该工作动用了 336 块 GPU 预训练了 22 天,不得不说实在都是土豪们才玩得动的游戏,这一点和下文要介绍的 NLP 中的预训练步骤何其相似。

不过为何这种预训练的模式能够有效?这背后有什么更深刻的内涵吗?为此,Google Brain 团队将 2014 年的 ImageNet 冠军 GoogleNet 的中间层进行了可视化,可以发现模型的较低层学习到的主要是物体的边缘,往高层后逐步就变成了成型的物体了。一般来说,物体的边缘和纹路都是一些比较通用的视觉特征,因此将这一部分对应的模型参数用来初始化 task-specific 模型中的参数,意味着模型就不需要再从头开始学习这些特征,从而大大提升了训练效率和性能。

深度长文:详细归纳NLP领域中的巨人肩膀

总结起来就是,CV 中的“巨人肩膀”是 ImageNet 以及由之而来 Google 等公司或团队在大规模数据集上预训练得到的模型,而“梯子”便是 transfer learning 之下的 fine-tuning。

寻找NLP的巨人肩膀

和 CV 领域中深度学习的惊艳表现相比,对于 NLP 任务来讲,深度学习的应用一直没有带来让人眼前特别一亮的表现。ImageNet 中的图片分类任务,深度学习早已超越人类的分类准确率,而这一目标对于 NLP 中的深度学习来说,似乎成了不太可能完成的任务,尤其是在那些需要深层语义理解的任务当中,更是如此。

但即便如此,困难从来未曾阻止人类想要教给他“儿子”理解“长辈”的话并开口说“人话”的雄心,忧心忡忡的人类家长恨不得也给 AI 来一次 FOXP2 基因突变——正像 20 万年前上帝的一次神来之笔给人类带来了语言能力一样。

2018 年 9 月,DeepMind 主办的 Deep Learning Indaba 2018 大会在南非举行,ULMFit的作者之一 Sebastian Ruder 在大会上做了一个很精彩的名为 Frontiers of Natural Language Processing 的报告,前后分为两个部分:第一部分梳理近些年 NLP 的发展;第二部分探讨了当前 NLP 遇到的一些困难。

在参考这个报告的同时,回到本文最开头,这里将主要着重于 NLP 中最为重要的 Encoder 模块,并抛去具体的模型之争(诸如 CNN,RNN 和 Transformer 等),想要努力梳理出一条 NLP 任务中如何更有效站上“巨人肩膀”的一些模式出来。

本质上,自然语言理解 NLU 的核心问题其实就是如何从语言文字的表象符号中抽取出来蕴含在文字背后的真实意义,并将其用计算机能够读懂的方式表征出来。当然这通常对应的是数学语言,表征是如此重要,以至于 2012 年的时候 Yoshua Bengio 作为第一作者发表了一篇表征学习的综述 Representation Learning: A Review and New Perspectives,并随后在 2013 年和深度学习三大巨头的另一位巨头 Yann LeCun 牵头创办 ICLR,这一会议至今才过去 5 年时间,如今已是 AI 领域最负盛名的顶级会议之一。可以说,探究 NLP 或 NLU 的历史,同样也是探究文本如何更有效表征的历史。

NLP / 机器学习 / CV

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000