方言也能听懂？百度AI展现神级语音技术-爱云资讯

7月4日、5日，百度AI开发者大会火热召开，会上百度向开发者们展示了百度AI能力的核心——百度大脑3.0。

百度大脑3.0的核心是“多模态深度语义理解”，它不仅能让机器听清、看清，更能深入理解它背后的含义，深度地理解真实世界，进而更好地支撑各种应用。

在下午的百度大脑分论坛上，百度展示了它在语音语义一体化、视觉语义化等技术上的新突破。

“小度小度，我要看电影~”

“小度小度，徐峥的老婆是谁~”

“小度小度，声音调大点~”

……

如果是识别出了几段普通话，可能并不让人惊奇，但这段指令却是一段四川方言，而搭载了DuerOS的电视不仅识别出了口令，并且和人类进行了流畅互动，这就让在场的开发者们惊奇不已了。而在这流畅交互的背后，就是百度大脑3.0在语音技术上的体现。

据百度高级副总裁、AI技术平台体系总负责人王海峰介绍，百度大脑3.0的核心是“多模态深度语义理解”，“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解，包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。

在语音技术上，百度取得了三项重大突破：百度高噪声环境Hand-free语音识别准确率已提升了10个百分点;语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面，WaveNet+拼接的情感语音合成技术，使得流畅度和自然度也大幅提升。

语音识别的准确率是语音技术的基础，针对远场交互中高频Query的识别率问题，百度对语义识别的技术和框架进行了重新设计，专门为高频Query建构解码空间，且对高频Query和普通Query两套架构并行解码。在动态解码阶段，百度采用了Ranking综合排序，以保证高频Query的高权重。百度基于高频Query的识别架构，目前能够将高频Query的准确性提升10个点，并能保证普通Query的识别率不降。

多语种混合Query的识别是语音技术中攻克的难点，百度发布的基于Deep Peak2采用的多语种音素组合建模，突破了以音素为基本建模单元的传统，对中英文统一建模，不仅能将建模单元减少至一千多、将解码速度加快、解码效率增高，且因为模型对训练数据极高的多样性和包容性，模型能积累更多的训练数据，进而大大提高对中英文混合Query的识别准确率。目前，基于中文Deep Peak2的多语种音素组合模型已在百度多个产品上线，相对错误率比业界最好竞品降低了20%。

技术质量与成本最优化是技术追求的目标，百度创新的WaveNet+拼接技术不仅保证了合成声音的情感，保证了输出声音的稳定性，同时降低了需要使用的数据和成本，全新的语音合成技术的经济适用性，覆盖了更多的聊天场景，也让该技术能得到大规模的工业应用。

方言也能听懂？百度AI展现神级语音技术

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业