登月早已实现，同期启动的语音识别还在路上--人工智能技术网

近日，阿里巴巴达摩院开源了自主研发的新一代语音识别模型DFSMN，让全球语音识别准确率记录提升至96.04%。“机器听懂人话”这个目标，似乎已经基本实现，但在AI认知方面还未实现突破性飞跃。

文字翻译与语音识别，可能是AI与人类实现认知互动最直接的手段。这两方面技术目前应用现状如何？未来提高方向又有哪些？

文字翻译：评测、算法、用户一个都不能少

“AI翻译中最普遍的传统算法是通过大量双语语料建立统计模型。”在近日举办的阿里巴巴达摩院技术创新分享日上，阿里巴巴达摩院机器智能技术实验室研究员葛妮瑜向记者解释，“比如‘中国’一词，英文译文经常看到‘China’，机器就大概可判断出‘中国’可能就是‘China’。之所以说‘可能’，是因为机器不可能达到100％的肯定性——于是，错误的翻译来了。”

而另一种近年比较热门的算法是神经网络翻译。“它的翻译方法是看整句而非单字，读起来很顺，但仍有缺点。”葛妮瑜表示，这种方法的最大缺点是其运用的是数字化模型，一旦翻译错了，人却很难知道它为什么错，很难进行人工干预改正。

既然传统算法与神经网络翻译各有缺点，那现阶段有何方法能弥补它们的不足？

葛妮瑜认为，通过不断新增用户实际使用数据来更新AI翻译模型，并将传统的统计机器翻译、规则翻译与较新的神经网络翻译融合，针对不同场景取长补短，是不错的选择。“比如数字相对固定，可用规则的翻译方法。如果是比较长的、灵活的语言，如描述性的用户评论，可采用神经翻译系统。数据的产生都是自动的，不需要人工参与。在保护用户隐私的前提下，这些用户数据可以推动模型的更新与迭代，起到查漏补缺的作用。”葛妮瑜说。

在今年6月举办的WMT2018国际机器翻译大赛上，阿里巴巴达摩院机器智能-NLP翻译团队在全部5项比赛中获得冠军。“每一种语言，我们都会根据它的语言现象来定制机器翻译的模型。遇到不同的翻译需求，我们先做需求分类。如果翻译的是标题、关键词，我们就用统计模型。如果翻译中有很多数字、日期、地址，以及专有名词，就用规则翻译模型。”葛妮瑜说。

怎么知道翻译得好不好？在没有人工翻译文本的前提下，如何判断机器翻译的质量？AI机器翻译有一个很重要的挑战——评测。传统的方式是将人工翻译和AI翻译的文本进行比较，这需要大量真人翻译的参与，成本很高。葛妮瑜认为，未来AI翻译技术若想得到良性循环，机器评测手段亟待持续跟进。

语音识别：复杂环境试验不可或缺

“语音识别的研发是和美国登月计划同时启动的。登月计划早已成功，而语音识别的一些技术难题却没有完全解决。”谈到语音识别，阿里巴巴达摩院机器智能技术实验室高级算法专家雷鸣调侃道。

智能语音交互，是基于语音识别、语音合成、自然语言理解等技术，在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。

“能听、会说、懂你”有何深意？用户说了一句话，机器首先把话识别出来。之后转化成文字，然后对文字进行语义理解，人工智能可以理解你的语言所表达的意思，及其背后的意图。理解之后，它再形成文字反馈，输入到语音合成模块，把文字转化成语音播报出来，反馈给用户。这样就形成了完整交互的路径。

“物联网时代，智能人机交互体验能否得到大规模应用，取决于公共空间及特定人群的识别与多模态的技术方案。”雷鸣解释，通过人脸识别及语音定位技术，未来的某款AI语音识别器将能实时检测出人的口形，并通过人与设备间的距离、高度来建模，再通过麦克风阵列把声音收集进来，从而增加语音交互系统准确度。

如果智能语音交互最终实现，那么支持自由对话交互过程的下一代对话引擎也将不会太远。“比如我点咖啡，三杯咖啡改成两杯，把咖啡换成巧克力之类的复杂意图；在交互过程中对话相关的上下文，都将被机器所理解。”雷鸣这样憧憬，“最早实验室的简单任务都是单个场景，但如果想要早日达到智能语音交互，更多复杂环境场景混合的实验或许必不可少。”

继续阅读：

人工智能技术网倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。！：首页 > 新闻 » 登月早已实现，同期启动的语音识别还在路上

相关推荐