科技发展日新月异,随着谷歌实时翻译这项黑科技的发明,从前我们苦练外语的时代也许一去不复返了,也许以后很多学生就要大声高呼:我终于可以不用学英语啦!不同国别,不同人种之间,语言包袱真能甩掉吗?人之人之间真能实现顺畅自然的交流吗?这也只是小编一个对未来的美好畅想,但谷歌Pixel Buds耳机实时翻译的新科技也让我看到了希望的曙光 。下面小编就和大家共同探讨下谷歌实时翻译的黑科技奥秘 。
这款无线耳机可以利用 Pixel 手机上的谷歌翻译 APP , 帮你把你所说的和所听到的话在 40 种语言里随意翻译 。实时语言翻译需要一系列技术的支持,而这些技术都在近几年里实现了极大的发展 。从 Pixel Buds 听到语音的一瞬间,到被翻译好的语音从手机中播放出来,中间使用了哪些技术呢?
探秘黑科技 输入调节:Pixel Buds 耳机所“听到的”语音会包含大量的背景噪音,所以“除噪”是必须的 。语音活性检测(VAD)则会让你的 Pixel Bud 只有在你说话时候才会响应,而不是对周围每个大声说“Ok Google”的人都有反应 。触控则是用来提高 VAD 的准确度 。
语言识别(LID):此系统会用机器学习,在几秒内识别所说的语言是哪一种 。这很重要,因为 Pixel Buds 之后所听到的一切语音都会因为语言的不同而意义不同 。而仅仅用发音来识别语言并不可靠,比如乌克兰语和俄罗斯语,以及乌尔都语和印地语的发音几乎一模一样 。所以,谷歌必须全新发明一种声学模型来识别语言 。
自动语音识别(ASR):ASR 会使用该声学模型把记录的语音转换成一个个音素,然后具体的语言模型会把这些音素数据转换为文字 。通过口语语法、上下文、概率以及发音词典,ASR 系统可以自主补上句子中的空缺并且修改误认的音素 。最终 , ASR 将会推断出一段基本正确的文字 。
自然语言处理(NLP):NLP 会使用机器翻译 , 把这段文字从一种语言翻译到另一种语言 。虽然听起来简单 , 但这不仅仅是把每一个词翻译成对应的词,而是需要理解语音背后的意思 , 然后把这个意思用另外一种语言表达出来 。而这段被翻译出来的文字在细微之处也需要符合其语言的习惯 。
语音合成(TTS 系统):TTS 和 ASR 可以被视为同一个过程的逆操作 。这个系统需要从一段文字中生成一段听起来十分自然的语音 。以前的老 TTS 系统会用增添合成 , 也就是把许多个由人所说的音素按照正确的顺序排列好,合成出成品 。而现代系统则会使用复杂的统计声学模型来产生听起来十分自然的声音 。
当我们把这 5 个不同的技术放在一起的时候,实现实时翻译也就不难了 。但是它们是如何具体的工作呢?让我们用一个中英翻译的例子来加以解释 。
当 Pixel Buds 收到翻译的指令后,它会首先语音录下来,用 VAD 来判断这段话从哪开始、在哪结束 。背景的噪音在语音被耳机记录的时候就会先被过滤一遍 , 然后在被传到手机上的时候再被过滤一遍 。手机中的 APP 会对这段语音进行压缩,避免用太多的数据流量,然后在通过无线网或 4G 把它上传到谷歌的语音服务器 。
谷歌的云端服务器会对这段语音进行解压,然后使用 LID 技术来判断所说的是汉语还是英语 。
假设这段语音是汉语,那么汉语的 ASR 系统就会接手,将它转化为文字 。之后,NLP 系统会把汉字翻译成英文文字,然后再发送给英语 TTS 软件,合成为英语语音 。这段被压缩的语音会沿原路返回到手机和耳机中,并播放出来 。
虽然这个过程听起来很复杂,但是在现实中仅需几秒钟就能完成 。不过这几秒可以说是很关键的几秒,因为耳机和手机中的处理器并没有足够的能力来进行本地翻译,也没有足够的空间去存储各种语言和声学模型 。就算谷歌开发出一款威力出奇的耳机或手机,这种程度的计算的能耗也会在几秒内将电池用空 。
最重要的是,市面上包括谷歌、科大讯飞以及 IBM 在内的所有实时翻译产品都在无时不刻的进行着更新,努力的在提高性能和用户体验 。而对自己的云端服务器进行更新很显然要比对无数个用户的耳机进行更新更容易 。
看来要想短时间内研发出完美的实时翻译技术还是挺有难度的,实时翻译技术的研发传播之路任重而道远?。?
【解放前通用语言 解放语言的Pixel】