• 精选
  • 会员

独家对话百度副总裁王海峰:NLP过去与现在

2019年3月9日  来源:机器之心 作者: 提供人:yanpan88......

下篇:过去与现在

机器之心:您 1993 年读大四的时候,为什么选择智能翻译作为本科毕业设计题目?

王海峰:这其中有我个人兴趣的因素,当时我觉得能让计算机来做翻译很神奇,特别有兴趣。另一方面也有机缘的因素,学校把我分配到了李生老师的课题组做毕业设计。

(注:李生,哈尔滨工业大学教授,自然语言处理领域专家,ACL 终身成就奖得主)

机器之心:当时所谓的「智能翻译」是怎样的状况?

王海峰:那时统计机器翻译方法刚刚出现,Peter Brown 那篇最经典的文章就是在 1993 年发表的(注 1)。1993 年初我做毕业设计时,还不知道那篇文章,当时最主流的还是基于规则的方法。我做毕业设计用的是基于规则的方法,这些规则都是人工写的。因为我本科是计算机学科,比较擅长把它们用程序、代码实现出来,当时还有外语系同学和我一起工作,专门负责写语言规则。

(注 1:Peter Brown et al. The Mathematics of Machine Translation: Parameter Estimation, In Computational Linguistics, 1993.)

机器之心:您硕士期间,仅用了一年就开发出了当时 863 测评第一的机器翻译系统,能和我们分享一下这段经历吗?

王海峰:刚上硕士时,我用的还是基于规则的方法。当时我写了一个很复杂的规则系统,也有小伙伴一起写语言规则、词典。那时候和现在的互联网方法相似,也是不断快速的迭代。我们会不断进行大量测试,发现翻译得不好的地方,就迅速分析解决。需要改代码,我就马上改代码;需要调规则,外语系的小伙伴就立刻调规则。有时候午饭前发现了一个修改的地方,我就直接不去吃午饭。趁小伙伴们去午饭的时间,我的代码就改好了。等他们回来,就可以继续写规则了。

那时非常有干劲儿,几乎每天都是实验楼一开门我就进实验室了,一直到晚上熄灯。当然,现在我也仍然每天很早就到办公室(笑)。

机器之心:您当年的同学们可能已经转到其他的方向,您为什么 20 多年来一直在坚持机器翻译、NLP 的研究?

王海峰:可以说很幸运,这些年一直有需要我的专业能力的工作。但也和个人性格有关,我做事比较坚持,选择了做一件事,就要负责到底,持之以恒不断地做得更好。我已经坚持了 20 多年,相信还会坚持下去,因为自然语言处理的路还很长。

机器之心:从您开始研究机器翻译,到现在机器翻译都有哪些比较重要的变化?

王海峰:之前说过的四种方法,基于规则的、实例的、统计的、神经网络的,每种方法我都经历过,每个方法都是一个很大的变化。

从根本上,我认为还是我们所拥有的基础在变。比如数据的基础,我记得刚来百度的时候,那时候特别开心,因为原来我们用统计方法找一些语料非常困难,几十万句对语料就觉得很好了。然而在百度,通过互联网挖掘到的语料要远远比这个数字大,所以百度翻译效果迅速地就上去了。

不只是机器翻译,人工智能这些年很多突破都跟数据有关,语音也是,相比早些年,语音数据获取速度在变快,成本则在降低。

机器之心:2010 年时您为什么加入百度?

王海峰:这个因素就比较多了。

首先根本的来说是整体的发展趋势。我毕业时是在外企,那时中国的 IT 公司还比较弱小,也不需要那么多特别深入的技术。随着近些年的发展,像百度这样的公司越来越强大,对 NLP 等技术的需求越来越强。到了 2010 年前后,更多的人都开始选择中国自己的企业。

比较直接的契机是 2009 年 8 月,Robin 在百度世界大会上发布框计算。我对此很关注,在我看来如果要做框计算,背后需要大量的自然语言处理的技术。所以当时就感觉到,百度要做框计算,那就该有我的用武之地了。

通过与百度人的接触,发现除了业务本身以外,大家的价值观、做事的方式等也特别匹配,所以聊过之后我很快就决定过来了。

机器之心:NLP 在百度是从您开始建设的,这个过程是怎样的?

王海峰:确切地说,自然语言处理部这个部门是我建设的,而百度自然语言处理技术的研发则在我加入百度之前就有了,当时大搜索有一个小组在做这个。我来了以后,从十几个人开始,正式成立了自然语言处理部,致力于直接满足搜索等业务需求的同时,也规划了更完整的布局及长期发展路线图。这个路线图中,既包括技术发展路线,也包括团队成员的个人成长路线。团队和业务都增长得很快,第一年团队规模就翻了好几倍,做的事情也多了很多。

机器之心:您现在主管包括搜索、手机百度、信息流等业务,在这些业务之间您如何平衡自己的精力?在学者和管理者之间又该怎样平衡?

王海峰:团队不是只有我一个人,很多人都很优秀,大家会各自有分工。这些业务在一起也有非常多的协同。

对于我来说,更重要的是把整体的目标和方向定好,并组建最适合达成这些目标的团队,然后就是带领大家高效执行及协同。因为我本人是技术背景,在全面带业务的同时,我的确也会在技术角度投入较多,会看技术发展方向和趋势,也会和大家一起去分析解决具体技术问题。

对于一个大型团队,大到你已经不可能认识每一个人,这时候更重要的是建立机制和形成文化。百度的大搜团队,有着原汁原味的简单可依赖的工程师文化。

机器之心:您最近比较关注的技术点是哪些?

王海峰:更多是希望能把人工智能的能力在各种业务充分发挥出来,比如搜索、信息流、手机百度等等。

如果人工智能再向前走,真正做到像人一样思考,除了对语言的理解还要有对知识的掌握和对人的理解。这些都要有一定的应用场景支撑,搜索就是可以支撑这件事的最大平台。到目前为止,搜索引擎拥有最多的数据和知识,它的背后是整个互联网,人类的大量知识都蕴含其中。搜索引擎有条件更快地积累需要的数据。

机器之心:在此前的采访中您提到过,「希望 NLP 的技术能更好地触及每一个人」。那接下来 NLP 触及每个人的方式,应用也好、呈现方式也好,具体会是怎样的?

王海峰:事实上 NLP 已经在触达几乎每一个人,因为它用在各种产品里。

百度绝大多数产品背后都有 NLP,2013 年我们做平台化时,NLP 的平台化也是其中一部分。当时 NLP 做了两个平台,一个是 NLPC(NLP Cloud),另一个是机器学习平台 Malloc。这两个平台当时的应用量都排在前几名,NLPC 平台现在每天调用量已经有上千亿。现在不只是百度,很多公司都很重视 NLP,应该说 NLP 已经在触达每一个人。

说到具体产品,获取信息是人的基本需求之一,在没有计算机的时代,甚至人类还没有文字的时代,始终都需要信息。获取信息最重要方式:一种是有明确需求,输入 query 去找信息;另一种是用户没有主动表达需求,但系统能个性化地猜到用户所需并推荐给用户。这就分别对应着搜索和信息流,一个是人找信息,一个是信息找人。这两种都应用了大量的自然语言处理技术。

人们每天通过搜索或信息流获取知识的同时,机器也可以不断沉淀数据和知识,不断变得更强。

面向未来看,自然语言对话会成为未来最自然的人机交互方式,这将会改变每个人使用手机及其它设备的方式,会更加直接地触达每个人。

NLP

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000