思必驰:语音交互迈入“拟人化”阶段

2023-06-29 09:49:35爱云资讯阅读量:743

消费者在交互过程中并非孤立地依据声音、表情及动作中的单项进行沟通与交流,而是综合视觉、听觉、触觉甚至嗅觉来进行有效的沟通。同理,要使机器做到更加逼真的“拟人化”,就需要通过语音、视觉、文本等信息结合的方式来推动人机交互的优化与升级。

例如,在复杂声学环境尤其是多人同时说话的时候,语音识别性能会显著下降,此时若引入视觉信息对讲话者进行唇语识别,综合语音和视频信息则可以大幅提升说话人跟踪和语音识别准确率;又例如,在人机交互过程中,机器通过采集用户的表情、说话语气,甚至脚步的频率和急缓程度,可以分析用户的情绪状态,以采用不同的方式推进交互,提高人机交互的交互效率与质量。

不难看出,应对人机交互场景化应用不断拓展的市场需求,多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化,多模态交互成为行业发展的必然趋势。

深耕行业多年,思必驰早年便对多模态交互领域进行布局,已经成功自主研发出多模态对话交互技术。

具体来看,思必驰多模态对话交互技术联合语音、语言、视觉等多个模态的信息,能够在高噪声环境(比如地铁、家居、车载环境),大幅提升语音识别率和对话交互成功率。此外,思必驰研发打造出多模态对话交互软硬件一体的解决方案,包括高噪声环境下的多模态唤醒、说话人跟踪、语音活动检测等技术,增加了语音交互对噪声的鲁棒性,显著提升了用户体验。

目前,思必驰上述方案已应用政务民生场景中的轨道交通、智能自助设备等需要近场语音交互且环境嘈杂的场景和产品。

随着技术的不断进步,多模态交互的应用场景将会越来越广泛。可以预见的是,AI语音的发展在思必驰等技术领先企业的持续推动下,将会为人们带来更加自然、智能的交互体验。

相关文章

人工智能技术

更多>>

人工智能公司

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>
关于我们|联系我们|免责声明|会展频道

冀ICP备2022007386号-1 冀公网安备 13108202000871号

爱云资讯 Copyright©2018-2024