2017中国互联网大会在北京国家会议中心拉开帷幕,为期三天。谷歌翻译研发科学家高勤详尽讲述了谷歌翻译最近一年取得的最新进展,主要在于利用机器学习消除语言障碍。
高勤表示,谷歌翻译现在提供超过100种语言互通,覆盖全球99%的网民,每天提供超过10亿次的翻译,大约相当于100万本书的文本总量。月度活跃用户超过10亿人次,其中95%来自于美国以外地区。在技术层面,谷歌利用机器学习带来了许多全新的翻译体验,例如利用手机摄像头做的即时翻译,利用手机麦克风和扬声器进行即时对话翻译,离线翻译的支持为没有数据服务的旅行者提供帮助。
在翻译质量方面,谷歌基于神经网络机器翻译技术在翻译的流畅度和准确性上进行了的提升。高勤认为,神经网络相对于传统技术是一种革命性的改变,能够获得连续的、全局的决策信息。
“传统的翻译技术,基于短语的统计机器翻译是拼图过程,通过对短语对的排列和组合,尝试找出较好的翻译选项,而整个决策过程是离散的,而支持这个决策的信息也都是局部的。而神经网络机器学习是反其道而行之,做每一步翻译过程中可以利用云语言与目标语言所有信息,使整个决策过程既是连续也是全局的。
高勤表示,2015年最初预计完成项目计划要花三年时间,但基于TensorFlow平台,在2016年11月针对16个语言的机器翻译能力基本实现。这其中,多语言模型使200个模型的训练与维护成为可能。
所谓多语言模型是指用同一套神经网络学习多种语言的互相翻译。如将英语、西班牙语、韩语放在同一个翻译模型中进行翻译。具体的实现方式:“将我们想要翻译的目标语言代码通过特殊符号形式告诉神经网络,神经网络就可以处理多种语言的翻译。如,要翻译到日语,只需要在原语言前加入2ja+简单符号。通过这样处理的多语言简单符号,很多情况下其性能超过单语言情况。”
高勤表示,在谷歌翻译的实践过程中,发现神经网络内部对多种语言的表示具有一定的普适性。“当我们对多语言模型、神经网络内部对多语言中意义相近的句子向量表示进行多维空间投影,发现意义相近的句子投影到相邻区域”。