• 精选
  • 会员

对话MSRA副院长周明:回望过去,展望未来,NLP有哪些发展趋势?

2019年3月9日  来源:机器之心 作者: 提供人:yanpan88......

在过去几天机器之心已经发布了对数位顶尖学者的年度专访,针对不同领域的发展趋势做了深度对话。本文我们将介绍针对 NLP 领域的发展对微软亚洲研究院副院长、ACL 主席周明博士的专访,从宏观层次和技术层面探讨 NLP 的研究进展及未来发展趋势。

周明博士是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会前任主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、中国科技大学、北航大学等多所学校博士导师。

对话MSRA副院长周明:回望过去,展望未来,NLP有哪些发展趋势?

以下为与周明博士的对话,机器之心根据对话内容做了不改变原意的精简和编辑,以飨读者。

机器之心:据 Marekrei 的统计,在过去一年(2018 年),您参与发表的顶会论文数量在 NLP+ML 领域排名世界第一。您能否介绍一下您们团队在过去一年多的时间里取得了哪些成绩?

周明:总体来讲,去年对我们团队来说是一个大丰收年。我们取得的成就可以归结如下:

第一项成就就是阅读理解(英文简称 MRC)。我们先后分别在 SQuAD 1.1 和 SQuAD 2.0 都取得了第一名的成绩。2018 年 1 月,我们提交的系统首次突破人类在 SQuAD1.1 测试集的水平,后来又有其他几个公司也先后超越了人类分数。这些系统体现了阅读理解的突破进展。最近我们在 SQuAD2.0 上,又超越了其他公司,获得了第一名。另外,在一个交互式、多轮 MRC 的系统 CoQA 上,我们最近提交(也是首次提交)的结果,也获得了第一名。

第二项成就是神经网络机器翻译(NMT)。我们在通用新闻报道测试集 newstest2017 的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。这个是微软亚洲研究院自然语言计算组和机器学习组的同事们与微软总部的机器翻译产品部门通力合作所取得的一个成绩。我们提出了新的联合训练和对偶学习以便充分利用单语语料,然后发明了一致性规范和推敲网络改进解码能力。这些技术的综合应用大幅度提升了翻译水平。

第三项成就是语法检查(Grammar check)。我们用神经网络的编码和解码技术,采用了类似于神经网络机器翻译的技术,对语法检查进行了重要改进,可以自动生成训练语料,并多次解码逐轮求优。我们的结果在目前语法检查的三个公开评测集中都位列第一名。我们发表的相关 ACL 文章引起了业界的关注。

第四个就是基于神经网络的语音合成(TTS)。我们与微软的语音产品部门合作把神经网络机器翻译技术首次应用于 TTS,大幅度提高了 TTS 质量。我们的技术在相关评测集合中表现最好。

除此之外,我们继续跟微软小冰合作。在原来的聊天引擎的基础上,大力提升了机器创作能力。比如写诗、谱曲、新闻等等,其中 AI 作词谱曲还上了中央电视台的《机智过人》节目,产生了很大的影响力。

机器之心:在过去几年中,您也一直积极参与到 NLP 顶会 ACL 的组织和管理当中,尤其今年您作为 ACL 的主席参与其中。在这个过程中,首先,您觉得从全局来看过去一年 NLP 领域有哪些新的进展呢?

周明:第一,神经网络深入到 NLP 各个领域之中,由此带来的崭新的神经 NLP 的建模、学习和推理方法,在我刚才所介绍的典型 NLP 任务中都取得了很好的进展;第二,以 BERT 为代表的一系列预训练模型得到了广泛应用,体现了大规模语言数据所蕴含的普遍语言规律和知识与具体应用场景巧妙结合的潜力;第三,低资源的 NLP 任务获得了广泛重视并得到了很好的发展。

除了以上技术上的显著进步,我想值得一提的是就中国的 NLP 的进展迅猛引起了世界瞩目。中国计算机学会和中文信息学会等主要学会都对中国 NLP 发展做出了重要贡献。两个学会各自都举办了很好的学术会议、讲习班或者暑期学校。除此之外两个学会还合作举办了「语言智能高峰会议」,去年已经是第三届了。由于这些学会的努力,再加上学校、公司的努力,中国的自然语言发展,从顶会(ACL,EMNLP,COLING 等)论文发表来看,过去五年来连续居于世界第二名;仅次于美国,远远高于其他国家。

这里多说一句就是,中国计算机学会的国际自然语言处理和中文计算大会(NLPCC),它的国际化程度、规模和水平目前正逐渐跟世界顶级的会议靠拢。其录取率在 23% 左右,参会人数在 500 人以上且逐年有 20% 的增长。同时,大会拥有国际化的大会组委会和程序委员会,工作语言是英文。可以期待它会成为中国发轫国际一流 NLP 学术大会。我们在 NLPCC 大会上曾经表述过这样的两个目标:2020 年,中国的自然语言研究达到世界公认的先进水平;2030 年,中国的自然语言研究达到世界公认的顶尖水平。我相信 NLPCC 大会能促进这两个目标的实现。

此外,去年 ACL 还成立了亚洲 ACL 分会(AACL)。我很感谢 ACL 执委会的支持以及亚太地区各个国家和地区 NLP 同仁的鼎力支持。AACL 的成立标志着亚洲可以跟北美和欧洲在 NLP 发展上平头进步。AACL 亚洲分会成立后,可以在亚洲组织很多很多类似于 ACL 这样的活动,来提升亚洲的 NLP 发展水平。

所以你看,从中国到亚洲到世界,整个趋势是在不同的层次进行努力;中国的进步非常迅速,引起世界一些研究者的关注。我在此前撰写的一篇文章中指出,「NLP 进入了黄金的十年」。这是因为未来国民经济发展和人工智能对 NLP 带来的庞大的需求,大规模的各类数据可供模型训练,以神经网络 NLP 为代表的各种新方法将一步步提升建模水平,各种评测和各种开放平台推动 NLP 研究和推广的能力,日益繁荣的 AI 和 NLP 领域促进专门人才的培养等等。所以,未来十年是非常值得期待的。

机器之心:刚才您提到中国 NLP 进展迅猛。过去一年,中国在研究方面有哪些比较重要的突破呢?

周明:除了我上面提到的微软亚洲研究院的那几项成果,中国的很多学校和公司也取得了很好的进展,比如中文的 MRC,百度、科大讯飞跟有关学会或者高校合作都分别组织了大规模的中文的 MRC 评测。其影响力也超越了国界。其他国家只要做中文的 MRC,也来参加这些评测。

中国的机器翻译,也就是以中文为中心的机器翻译,现在在世界上处于领先水平。中文为中心,就是汉语到其他语言,中文到日文、泰文、马来文等的翻译,这些都是以中文为中心的。围绕着一带一路沿线各个国家的语言翻译,中国有很多学校和公司都做了非常了不起的工作。在以中文为中心的研究和实用化方面,都取得了很好的进展。

在聊天和对话方面。中国也位居世界前列。以中国出现的微软小冰为代表的聊天系统带动了全世界范围的人工智能聊天系统的研究和开发。小冰平均聊天轮数达到 23 轮,而且实现了多模态聊天。除了小冰,中国的很多互联网、电子商务、手机公司都开展了聊天机器人和语音对话系统的研发。用于搜索引擎、语音助手、智能音箱、物联网、电子商务、智能家居等,

刚才这三个趋势,我认为代表了过去两三年来中国 NLP 的一些典型进步。

NLP

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000