5月10日,Facebook发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷歌机器翻译,并且翻译速度上快了9倍。Facebook称,在速度上,新的机器翻译系统创下新的世界纪录。 本文带来对基于神经网络的机器翻译(NMT)技术的研究状况介绍和对比。我们看到:这一技术在过去两年中已经成为AI 界的一个热点研究,在未来还会更加火热。
学术界对神经机器翻译(NMT)的研究兴趣不减。今年到5月份为止,在开放存取论文网站 arXiv.org 上发表的有关 NMT 的研究论文数量几乎相当于2016年全年的该主题论文数量。这个数字印证了我们在去年底预测的趋势。
截至5月7日,arXiv.org 存储库中在标题或摘要中包含 NMT 的论文共有137篇,其中2014年发表的只有7篇,2015年增加到11篇。发生突破的是2016年,发表的论文达到67篇。
NMT,或称基于神经网络的机器翻译方法,被视为是基于短语的统计机器翻译(SMT)和更早以前的基于规则的方法的一个突破。
虽然有许多研究和比较评估指出 NMT 在实现更流畅的翻译结果方面有优势,但该技术仍处于研究的初级阶段,许多有趣的研究方向正在继续展开。
大多数NMT研究者来自美国
到本文发布为止,2017年提交到 arXiv 的 NMT 主题下的论文的作者涉及全球范围的173名研究者,其中大多数(63名)来自美国的大学或研究机构。
最高产的作者是 Kyunghyun Cho,纽约大学计算机科学系,库朗数学研究所的助理教授。去年一年,Cho 的沦为得到14次引用。
Cho 作为共同作者的论文一共三篇,分别是:《Nematus:一个神经翻译工具包》,《学习句法分析和翻译改进 NMT》,以及《可训练的NMT的贪婪解码》,协作者包括来自爱丁堡大学,海德堡大学和欧洲苏黎世大学的研究人员, 东京大学和香港大学, 以及土耳其中东技术大学。
除 Cho 之外,还有62位来自九所美国大学的研究人员在 arXiv 公布了他们在 NMT 方面的研究,这九所大学分别是:加州大学伯克利分校,CMU,纽约大学,麻省理工学院计算机科学与人工智能实验室,剑桥大学,斯坦福大学,佐治亚理工学院,约翰霍普金斯大学,以及哈佛大学。
来自欧洲的61位研究者也在这一主题下发表了大量论文,作者的国籍包括:英国(18),德国(11),爱尔兰(13)和荷兰(7)。
来自亚洲的有58篇NMT主题的论文,主要来自中国(包括香港和台湾)31篇,日本22篇,韩国3篇以及新加坡2篇。
来自美国科技巨头的研究团队,例如Facebook Research、谷歌大脑、IBM Watson、英伟达(NMT 运行于其GPU 芯片之上)以及机翻技术先驱SYSTRAN 也一直在向arXiv 贡献研究成果。
例如,来自谷歌大脑研究人员的论文提供了有关构建和扩展 NMT 架构的洞见,并提供了一个开源的 NMT 框架来验证结果。
哈佛和 SYSTRAN 的研究者介绍了一个开源的 NMT 工具包 OpenMT,它提供了一个用于训练和部署神经机器翻译模型的库。他们表示,该工具包将进一步发展,“在研究前沿保持强大的 MT 成果”,为产出类应用提供了稳定的框架。
NMT,数学遇见语言
Facebook 于2017年5月9日宣布,正在开源其 NMT 模型,并有一篇关于论文 发在 arXiv 上。 该论文以《神经机器翻译学习联合多语言句子表征》为题(Learning Joint Multilingual Sentence Representations with Neural Machine Translation),由其 AI 研究团队的两名成员与 the Informatics Institute – University of Amsterdam 和 the Middle East Technical University 的其他两位研究人员合作撰写。
在亚洲,中国互联网供应商腾讯今年有两篇论文贡献出来。 一篇来自其深圳的 AI Lab(《神经机器翻译源句法建模》(Modeling Source Syntax for Neural Machine Translation)); 另一篇,来自腾讯移动互联网部门(《使用线性关联单位的深度神经机器翻译》(Deep Neural Machine Translation with Linear Associative Unit)),这是和苏州大学、中国科学院及都柏林大学的联合研究。
北京的微软亚洲研究院今年也开始进行 NMT 方面的研究。本月刚上传了两篇论文(《对抗神经机器翻译》(Adversarial Neural Machine Translation)和《MAT:图像字幕多模态转换器》(MAT: A Multimodal Attentive Translator for Image Captioning))。
微软自己的研究人员与中国科技大学、台湾中山大学,广东省信息安全技术重点实验室,清华大学,UESTC 和 Johns Hopkins University 等科研人员展开了研究合作。