语音识别未成熟 亚马逊Alexa通过半监督学习减少误差
2019-03-22 16:16:18爱云资讯824
Alexa Speech小组的应用科学家Minhua Wu和同事在论文中描述了一种语音识别器,它可以以半监督的方式识别数据模式。他们声称一个实验模型训练了800小时的注释数据和7200小时的未注释数据,与基线相比,该设计使字的错误率降低了20%。
亚马逊Alexa
正如他们解释的那样,自动语音识别系统由三个核心组件组成,分别是声学模型、发音模型和语言模型。声学模型输入短音频样本或帧,并且每帧输出数千概率。在所提出的方法中,声学模型的输出被馈送到发音模型,该发音模型将senone序列转换为可能的单词并将其递送给语言模型,语言模型则负责编码单词序列的概率。最后,所有三个人工智能系统一起在给定音频输入的情况下找到最可能的单词序列。
该论文的作者首先寻求了优化声学模型的最大准确度,并最大限度地减少输出序列的误差。他们报告表示,这使得学生模型的对应物更加准确,并带来了学生模型的相对改进。接下来,他们从音乐、电视和其他媒体收集音频样本并处理它们,以模拟闭室声学,从而为训练数据增加了噪音。对于训练集中的每个语音示例,他们都会随机选择一到三个噪声样本添加到其中。
在测试中,该团队使用了另外两个语料库。一组是干净的音频样本,而另一组样本则是包含噪音的。其中,表现最佳的学生模型首先使用所有添加了噪音的8000小时数据,并根据教师模型的每帧输出进行优化,然后对800小时的注释数据进行训练。相对于使用800小时手工标记的清洁数据训练的教师模型来看,它的清洁测试数据的错误率降低了10%,噪声测试数据降低了29%,重新录制数据错误率降低了20%。该研究计划于2019年春天在布莱顿举行的声学、语音和信号处理国际会议上进行展示。
相关文章
- 天玑9400首发端侧AI语音识别技术,打造《破碎之地》随行AI NPC
- 语音识别上难度 讯飞输入法免切换识别多语种多方言不迷糊!
- 量身定制 精准识别,标贝科技语音识别定制方案助力企业智慧升级
- vivo携手昆仑芯、wenet助力提升语音识别效果与性能,共建开源生态
- 说话秒变笔记!讯飞语记能“连续语音识别速记”
- 出门问问联合发布全球最大多领域中文语音识别数据集WenetSpeech
- 从语音识别到AI拍摄,骁龙人工智能算力覆盖手机体验方方面面
- AI助手查余额,思必驰语音识别支持10多种方言
- 197亿美元现金!微软宣布收购语音识别巨头Nuance
- 谷歌发布新一代定向人声分离系统,2.2MB模型提升设备端语音识别
- 小米MIUI新增字幕模式,语音识别更加懂你
- 用人工智能打通K12语音识别市场,「先声智能」实力加码在线教育细分赛道
- 讯飞智能键盘首发离线语音识别,颠覆你对键盘的所有想象
- 讯飞输入法安排上了AI语音新引擎 树立语音识别新标杆
- AI赋能新版搜狗输入法:语音识别支持9种语言,多种外语键盘一键切换
- 支持语音识别游戏指令!腾讯黑鲨游戏手机3全新JOYUI系统迎来全面升级