MIT又一突破!用AI过滤音源,让音乐更悦耳
2018-07-09 15:26:13爱云资讯阅读量:1,352
一般利用均衡器可以将音乐中的低音部分调出来,但是麻省理工学院的计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人员发现了更好的解决方案。他们所研发的新系统 PixelPlayer,能够利用人工智能来区分和过滤声音,让音乐听起来更洪亮或更柔和。
将指定视频录入经过充分训练的 PixelPlayer,系统随机能够过滤伴奏,同时识别音源,接着计算图像中每个像素的音量,然后通过“空间定位”确定产生相似音波的片段。
今年9月,德国慕尼黑即将举行欧洲计算机视觉会议(European Conference on Computer Vision),会议中要发表的一篇新论文则详细论述了“像素的声音(The Sound of Pixels)”。麻省理工学院计算机科学和人工智能实验室的博士生,同时也是这篇论文的合著者 Zhao Hang 同学表示,“最好的情况就是,我们能识别出哪种乐器发出怎样的声音。”
PixelPlayer 的核心是一种基于乐器组合多模态训练的神经网络,数据集采用了 Youtube 上 714 条未经修剪且未经标记的视频。其中,总时长为 60 小时的 500 条视频用于训练,剩余的则用于验证和测试。在训练过程中,研究人员分别根据原声吉他、大提琴、单簧管、长笛和其他乐器向系统馈入了算法。
这只是 PixelPlayer 多重机器学习框架的一个部分。经过训练后的视频分析算法将从剪辑帧中提取出视觉特征,这就是系统的第二个神经网络,即音频分析网络。音频分析网络将声音拆分为片段,并从中提取特征。最后,音频合成网络将把上述两个网络输出的特定像素和声波关联起来。
PixelPlayer 进行完全自监督的学习,人们无需对数据注释,而且系统目前已经能识别 20 种乐器。Zhao Hang 说,较大的数据集增强了系统的识别量,但识别乐器子类的能力却不佳。系统也可以识别音乐元素,例如小提琴的谐波频率。
研究人员认为 PixelPlayer 可以进行声音剪辑,或者帮助机器人理解动物、车辆和其他物体所制造的环境声音。他们写到,“我们希望我们的工作能够开辟新的研究途径,从视觉和听觉信号角度实现声源分离”。相关文章
- DigiCert任命行业资深人士Amit Sinha为首席执行官
- AISummit全球人工智能技术大会,洞悉AI技术的现在与未来
- 凭借微创植入式柔性脑机接口技术 脑虎科技荣登MIT TR50榜单
- 涵盖 12 大 AI 热点技术方向, AISummit 全球人工智能技术大会2022震撼来袭!
- WAVE SUMMIT 2022文心大模型完成体系布局 百度吴甜提出大模型产业落地关键路径
- 十个大模型、六大发布 WAVE SUMMIT 2022飞桨持续夯实AI底座
- WAVE SUMMIT 2022将于5月20日召开 飞桨将迎来大规模升级
- 4月26日芯启源将亮相全球首届智能网卡峰会(SmartNICs Summit)
- MIT团队开发基于智能手表的系统 在佩戴者身体过热时向其发出警告
- MIT研究人员发明可根据视角改变其外观的3D打印物体
- TransCenter: MIT&INRIA开源多目标物体跟踪算法
- MIT研发高效解码算法和芯片,可用于AR/VR
- 全城WAVE SUMMIT 提前预定,百度邀你共赴一场初夏的AI盛宴
- MIT和马里兰大学研究小组发现新的量子算法可破解非线性方程
- 让病毒“说话”:MIT团队使用AI预测HIV及新冠病毒的突变方向
- openEuler Summit 2020成功召开,探索技术创新无限可能