Facebook开源wav2letter++,最先进的语音系统
2018-12-27 15:22:11爱云资讯1257
最近,Facebook AI Research(FAIR)宣布了第一个全收敛语音识别工具包wav2letter++。该系统基于完全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的两倍以上。他们在博客中详细介绍了这个开源软件。
由于端到端语音识别技术可以容易地扩展到多种语言并且同时保证在各种环境中的识别质量,因此通常认为它是一种有效且稳定的语音识别技术。虽然递归卷积神经网络在处理具有远程依赖性的建模任务(例如语言建模,机器翻译和语音合成)中占主导地位,但是循环架构是端到端语音识别任务的主流。
鉴于此,Facebook人工智能研究所(FAIR)的语音团队上周推出了第一个全卷积语音识别系统。该系统完全由卷积层组成,消除了特征提取步骤和仅训练端到端音频。预测波形中的转录文本,并且通过外部卷积语言模型对文本进行解码。然后Facebook宣布开源wav2letter++ - 这种高性能框架的出现,使端到端语音识别技术能够实现快速迭代,为未来的优化工作和模型调优奠定坚实的基础。
宣布开源wav2letter++,以及机器学习库Flashlight。 Flashlight是一个基于C ++的机器学习库,它使用ArrayFire张量库,并在C ++中实时编译,目的是最大限度地提高CPU和GPU后端的效率和规模。 wave2letter++工具包基于Flashlight基础构建。最重要的是,它也是用C++编写的,ArrayFire是张量库。
本节重点介绍ArrayFire,它可以在CUDA GPU和CPU支持的各种后端上执行,支持多种音频文件格式(如wav,flac等),并支持多种类型的功能,包括原始音频。线性缩放功率谱,对数梅尔谱(MFSC)和MFCC。
相关文章
- 抖音及TikTok蝉联7月全球移动应用下载榜冠军 Facebook排名第二
- 金融机构看好元宇宙概念,Facebook/微美全息蓄力AR/VR数字社交产业化生态
- Facebook人工智能研究部门推出聊天机器人BlenderBot2.0
- Facebook将开发帽子头戴设备,微美全息强化AR相关产业链布局受关注
- Facebook AI团队让机器人行走适应各种环境和路面
- Facebook/微美全息积极拥抱AR风口,宏大的未来一触即发!
- Facebook新专利提高AR眼镜体验,微美全息AR视觉扩内需互联产业生态
- Facebook消费者报告:AR购物是未来增长点,微美全息AI+AR聚焦5G消费市场
- VR、AR行业奇点将至,Facebook/微美全息/苹果等内容+生态跨越式发展
- 苹果/Facebook加速研发AR装置聚焦消费市场,微美全息AI+AR构筑5G全息云生态
- Facebook新AI模型实现图片监测,微美全息光场视觉AI模块化拼接算法优秀
- Facebook扩大团队推进AR/AR战略激进,微美全息扩大全息矩阵产品发展5G全息生态
- IDC公布中国深度学习市场综合份额:百度超越Facebook位列第二
- Facebook使用AI对内容进行分类 以便更快地进行审查
- Facebook正在研发AR眼镜 专注于音频清晰度
- Facebook推AI系统加快核磁共振(MRI)成像4倍