准确率提高9.5%!亚马逊Alexa推出新语音识别系统
2019-04-02 16:18:33爱云资讯1135

在语音识别方面,两个麦克风比一个麦克风更好,这是一个公认的事实。直观的说,这是有一定道理的:声波到达多个麦克风的时间延迟不同,这可以用来提高来自某个方向的信号的强度,同时减少来自其他方向信号的干扰。传统上,语音增强(将语音从噪声中分离出来)的问题一直是独立于语音识别来解决的,但是相关实验结果表明,这种方法所取得的效果并不太好。最近,亚马逊研究人员对此提出了自己的解决办法。
亚马逊Alexa部门的研究人员认为,他们已经开发出一种新的声学建模框架,通过统一语音增强和语音识别来提高性能。在实验中,当应用2-mic系统时,他们声称他们的模型比使用传统的7-mic系统提高了9.5%的语音识别准确率。
他们在两篇论文中描述了自己的工作成果,“频域多通道声学模型用于远程语音识别”和“多几何空间声学模型用于远程语音识别”,这两篇论文将于下月在布莱顿举行的第44届ICASSP国际声学、语音与信号处理会议上发表。
研究人员在论文中描述了一种多麦克风系统方法,它取代了独立的手工编码算法,这些算法确定波束形成器(在传感器输出上工作的空间滤波器,以增强波的幅度)的方向,并用单个神经网络识别语音信号。亚马逊目前的Echo音箱可以动态调整波束形成器,以适应新的声学环境。
Alexa语音组的语音科学家Kenichi Kumatani在一篇博客文章中解释道:“传统技术旨在将单个声束指向任意方向,但这是一种计算密集型的方法。” “有了Echo智能音箱,我们可以将多个声束指向不同的方向,并识别出产生最清晰语音信号的那一个……这就是为什么即使电视在几码外发出刺耳的声音,Alexa依然可以理解你对要求播报天气预报的指令。”
单个神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器,或者以多个不规则频带的信号能量快照的形式传递给特征提取器。在传统的模型中,它们对背景噪声进行标准化估算,提取器的输出被传递给一个人工智能系统,该系统计算出不同“电话”(即语音信息的短单位)对应的特征的概率。
论文的作者表示,如果模型的每个组件(例如,特征提取器和波束形成器优化器)分别初始化,性能就会提高。他们同时补充到,不同的训练数据使模型能够跨设备处理各种类型和配置的麦克风。Kumatani说:“这意味着新设备的ASR(自动语音识别技术)系统,或者使用范围不太广泛的设备,都可以从更广泛使用的设备产生的交互数据中受益。”
相关文章
- 亚马逊云科技宣布中国企业出海业务战略升级
- 亚马逊云科技Amazon SageMaker Unified Studio现已可用,加速数据分析和人工智能创新
- 亚马逊首款量子计算芯片Ocelot亮相,微软/谷歌/微美全息竞逐加速量子行业成熟
- 涂鸦智能宣布与亚马逊云科技IoT集成,增强智能家居连接能力
- 亚马逊Prime Video推出了AI Topics功能,利用人工智能来推荐内容
- 抢先OpenAI Sora谷歌新推Veo模型,亚马逊/微美全息加入AI视频生成竞赛引关注
- 中宇联携手亚马逊云科技,共同推动行业数智化转型进程
- 涂鸦智能斩获亚马逊云科技2024合作伙伴奖项,加速推动全球智能化进程
- 钛动科技成为亚马逊广告合作伙伴,开启全渠道数字营销新篇章
- 大米和小米、亚马逊云科技联合创新 为上千万特需儿童带来首套AI解决方案
- 亚马逊曝光搭载M4芯片的小型Mac Mini
- 亚马逊计划采用先进的核反应堆来实现气候目标
- Global E-Payment 亮相亚马逊全全球开店启动大会,重磅福利助攻卖家备战旺季
- OpenAI ChatGPT用户激增至2亿,亚马逊/微美全息加速布局大模型市场蓝海
- 亚马逊的新款Alexa语音助手将使用Claude AI技术
- 亚马逊云科技“AI在未来“公益计划圆满收官