依图语音识别“弯道超车”破除质疑 迭代挑战下凸显上升空间
2019-01-30 17:47:38爱云资讯1324
依图虽以CV见长,但语音识别进展的速度,也再度刷新了部分人的固有印象。纵观整场展示会,依图各类测试结果均以横向对比的形式体现,对比目标包括讯飞、云知声、阿里、腾讯、百度等多家主流公司旗下的各类语音识别项目,该批测试于今年11月底完成,数据覆盖到近60万字、50小时的语料,近远场跨度在20cm-10m。
在编者看来,字错率等多项性能数据对比下,依图都展示出了自己的领先水准,着实令人意外。同时,如此直白的强烈对比之下,耿直的依图等于一下子把行业的“遮羞布”都掀开,借助别人来赞扬自己,令不少友商颇感不适。
毕竟触及了行业和友商的利益,会后不少业内人士都质疑当中的公正性和客观性。实际上,虽然各项测试横向对比均为各厂商的开放平台方案,并不完全代表各家语音识别领域的综合实力水平,但依图有底气开放算法API以及测试数据集,足以说明真实水平和公正性。所有公开数据集上的测试结果均可复现之前的展示,其他友商目前或许还没有这个底气,性能多少有夸大的嫌疑。
另据编者了解,依图的多项测试并不是单一设备完成的。当中包括科技、医疗等20多个领域及手机、智能音箱等多种硬件设备。毕竟,覆盖到多类设备和场景,减少影响语音识别效果的因素,能从根本上降低误差,提升客观性,当然这是在同一套算法下实现的。
不过话说回来,即便依图确实在短短时间内实现了“弯道超车”。但与人脸识别不同的是,语音识别还属于“不透明”的领域,虽然整个行业都在宣传语音识别的准确率达到95%以上,但并非代表达到真正好用的程度,多数情况下都是来自近场、安静等受限场景,对于其他有干扰或更复杂的场景,则会增加实际应用中的不确定性,让理想和现实存在差距,所以还需要针对性的设计模型,这会导致应用场景难以突破等一系列问题。
另外,当前技术迭代到什么样的水平,也没有一个清晰的认知。即便要比较,目前缺乏系统性的标准测试、测试集,而要覆盖多维度多场景的数据成本过高;再者,工业界语音识别的水平早已超过学术界,不同行业更加缺乏体验和比较的工具。早前科大讯飞的“造假门”余波未平,而中文语音识别算法良莠不齐,算法能力也远未超越人类,依图与微软Azure、华为的进一步合作也表明语音识别在技术及构建AI生态等维度还有上升的空间。
综上所述,依图科技语音识别能力确实凸显出了“弯道超车”的迹象,但只在某些细分技术上的暂时领先,并不能让行业出现革命性的进步。不过,编者预计,按照依图目前的节奏,在未来的一年内,其语音识别技术的算法性能将出现高速增长期,更多的场景也将被解锁,并频繁露脸,可能这个过程中也许会得罪某些同行,但当中的积极意义和行业价值还是值得肯定的。
相关文章
- 依图CTO颜水成被曝离职,已加入东南亚电商独角兽Shopee
- 依图当选全国信标委人工智能分委会副组长,为AI标准化体系建设提速
- 依图科技在人工智能市场的发展前景如何?
- 人工智能企业云知声、依图科技科创板上市申请获受理
- 癌症早筛与科研两手抓,「依图医疗」医疗AI商业化探索现成果
- 依图在全球AI技术赛道,又攻下一个第一
- 依图AI助力一线复工复产
- 依图新冠肺炎小依医生落地全国多家医疗机构助力疫情防控
- 依图承建上海市医疗图像与医学知识图谱人工智能重点实验室
- 2020年5G大风口,WiMi微美全息/旷视/商汤/依图等AI视觉抢占智能场景市场
- 依图的2019:眼中有光 芯中有梦
- 重构依图,「不合群」的AI独角兽
- 依图科技CTO颜水成:让“AI”成为“Affordable Intelligence”
- 智·聚变 享·未来 2019依图科技分销合作伙伴大会正式召开
- 依图科技AI防癌地图获奖?WiMi微美全息AI视觉模组是5G核心应用
- RSNA2019再出发!依图医疗秀出中国医疗AI新风潮