思必驰：语音交互迈入“拟人化”阶段-爱云资讯

消费者在交互过程中并非孤立地依据声音、表情及动作中的单项进行沟通与交流，而是综合视觉、听觉、触觉甚至嗅觉来进行有效的沟通。同理，要使机器做到更加逼真的“拟人化”，就需要通过语音、视觉、文本等信息结合的方式来推动人机交互的优化与升级。

例如，在复杂声学环境尤其是多人同时说话的时候，语音识别性能会显著下降，此时若引入视觉信息对讲话者进行唇语识别，综合语音和视频信息则可以大幅提升说话人跟踪和语音识别准确率；又例如，在人机交互过程中，机器通过采集用户的表情、说话语气，甚至脚步的频率和急缓程度，可以分析用户的情绪状态，以采用不同的方式推进交互，提高人机交互的交互效率与质量。

不难看出，应对人机交互场景化应用不断拓展的市场需求，多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化，多模态交互成为行业发展的必然趋势。

深耕行业多年，思必驰早年便对多模态交互领域进行布局，已经成功自主研发出多模态对话交互技术。

具体来看，思必驰多模态对话交互技术联合语音、语言、视觉等多个模态的信息，能够在高噪声环境（比如地铁、家居、车载环境），大幅提升语音识别率和对话交互成功率。此外，思必驰研发打造出多模态对话交互软硬件一体的解决方案，包括高噪声环境下的多模态唤醒、说话人跟踪、语音活动检测等技术，增加了语音交互对噪声的鲁棒性，显著提升了用户体验。

目前，思必驰上述方案已应用政务民生场景中的轨道交通、智能自助设备等需要近场语音交互且环境嘈杂的场景和产品。

随着技术的不断进步，多模态交互的应用场景将会越来越广泛。可以预见的是，AI语音的发展在思必驰等技术领先企业的持续推动下，将会为人们带来更加自然、智能的交互体验。

思必驰：语音交互迈入“拟人化”阶段

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业