谷歌的语音识别利器，最先造福了自己的员工

时间：2020-09-18 12:09:31 阅读：24 评论：0 收藏：0 [点我收藏+]

https://mp.weixin.qq.com/s/oswN2_hsypR1SlELVoHbeg

By 超神经

场景描述：近日 Google Brain 团队对外发布了 Parrotron 项目，帮助人和设备更准确地理解具有语音障碍的人。Parrotron  从音频分析入手，从语音信号的角度来解决问题。它通过单个端到端深度神经网络训练，将来自语音障碍人士的语音，直接转换为流利的合成语音，从而帮助他们解决交流上的问题。

关键词：构音障碍  深度神经网络   机器翻译

Dimitri Kanevsky，出生于 50 年代的俄罗斯，他的成长阶段经历了中苏冷战，但他仍然完成学业，并获得了数学博士学位。

他的求学、工作足迹从俄罗斯开始，辗转于以色列、德国，最终选择留在了美国，并成为了谷歌的研究科学家，专注于语音识别算法领域。

似乎是一个学霸精英的人生路径：受到良好的教育，获得美国绿卡、光鲜的工作、152 项美国科学技术专利，最后在硅谷登顶人生巅峰。

技术图片

故事却远远没这么简单，Dimitri Kanevsky 并不是一个普通人。大多数人都难以想到，他还是听障人群中的一员。

Dimitri Kanevsky 在一岁时，因为药物导致了耳聋，但他的家庭依旧为他选择了正常的教育，他从小就开始学习读唇、发声，一直就读于普通学校。并在十几岁的时候，通过俄语发音的辅助，开始学习英语。

但在学习英语时，因为听力障碍、俄语发音差别等原因，他在语言交流上存在很大的障碍。他说出的语句比较模糊，常常是对方听不懂的表达。甚至连对自己的家人的口头关怀，都有可能无法递达。

简单来说，他说的英语大多数人很难直接听懂，为了解决自己的问题，也帮助更多和自己面临类似问题的人群，Dimitri Kanevsky 一直在攻克语音识别方向的课题。

技术图片
有时只为完成一些普通的交流
Dimitri Kanevsky 需要借助语音转文字的工具

在医学上，这种说话不清楚的情况称为「构音障碍 dysarthria」。据统计，因为身体疾病而导致构音障碍的情形，在全世界多达一百万人。

构音障碍是由于神经病变，与言语有关的肌肉麻痹、收缩力减弱或运动不协调所致的言语障碍，通俗的说法是「口齿不清」。

比如中风，大脑麻痹，帕金森病，唐氏综合症， ALS（渐冻症）等诸多疾病，都会造成这一状况。

技术图片
对方说了叽里咕噜的一堆
你听到的却是呜呜哇哇的一串杂音...

同样在谷歌，一位叫 Aubrie Lee 的品牌市场经理，被诊断出罕见的肌肉萎缩症（渐冻症），导致她长时间要在轮椅上度过。

全身肌肉的不断流失，也造成了她在交流上的困难。Aubrie 在听力和发音上都异常吃力，还因为无法微笑而常常被人误解。此外她还拥有多种口音，发音并不清晰，在对话时对方往往无法明白她的意思。

为了帮助 Dimitri Kanevsky 和 Aubrie Lee 这样的同伴，解决他们在语言上的难题，构音困难逐渐成了谷歌 AI 研究团队的一个科研方向。

关怀语言障碍者，谷歌推出突破性工具

几年前，Kanevsky 带着 30 年的语音识别经验，加入谷歌的 AI 研究组，那时还没有能让他和其他人正常沟通的便捷工具。每次开会， Kanevsky 都需要提前预定 CART 服务，依赖字幕员进入到会议中，将语音信息敲到屏幕上进行对话。

同样的，Aubrie 和自己同事们，也都需要花费很大的力气，才能完成常人轻松胜任的工作交流。但这种窘境，正在慢慢地成为历史。

2019 年 2 月，谷歌推出了一款 App——Live Transcribe ，为便携式的语言转化带来了曙光。它是一款即时转录真实世界语音的应用程序，使用手机自带的麦克风，即可将语音转换为实时显示的文字。

随后，在 5 月份的谷歌 I/O 大会上， Project Euphoria 被提出，这个计划为 ALS 导致的语言受损人群，提供一套语音到文字的解决方案。

技术图片
Project Euphoria 中
谷歌训练 AI 模型以适应语言障碍

在这个月，谷歌推出了一款新的 AI 工具 Parrotron，能够直接将模糊的声音，转化成标准的合成音。这将解决语言障碍的技术又往前推进了一步。

Parrotron 由端到端的深度神经网络组成，从音频分析的角度入手，在使用时，测试者对着手机等设备说话，就能快速的得到转述后的标准发音。

在论文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中，Parrotrn 表现优异，语音识别和转化的正确率都有了新的突破。

论文地址：https://arxiv.org/abs/1904.04169