科学家设计AI系统从无声钢琴演奏视频中再现演奏声音
2021-02-13 07:44:35爱云资讯1016
据外媒New Atlas报道,想象一个计算机程序能够直观地识别出在无声的钢琴演奏视频中演奏的是哪首乐曲,或许并不夸张。然而, 一个新的人工智能系统却更进一步,以数字方式逼真地再现了钢琴演奏的声音。
这项技术被称为Audeo,由华盛顿大学 的一个团队设计。研究人员使用钢琴家保罗·巴顿的YouTube视频对系统进行了培训和测试。培训包括约17.2万巴顿演奏巴赫和莫扎特等著名古典作曲家音乐的视频帧。
在分析一段无声视频时,所产生的系统首先会观察哪些键被按下的顺序,确定各个音符及其排列方式。也就是说,它还能感知到每个键被击打的力度和被按住的时间--这让它能计算出每个音符的强度,以及它在随后弹奏的音符下面持续的时间长度。它还考虑到了钢琴独特的声学特性。然后,这些数据被转换为一种可以被现有的数字合成器理解的格式。据报道,当该合成器回放音乐文件时,它听起来非常像原始的钢琴音乐。
在对Audeo的测试中,它的任务是根据巴顿演奏的静音视频重现钢琴音乐,而不是系统所训练的音乐作品。当SoundHound等音乐识别应用分析这些再现时,它们能够以大约86%的准确率识别出乐曲。相比之下,当这些应用分析相同视频中的原始钢琴音频时,其识别准确率攀升至93%。随着技术的进一步发展,这种差距应该会缩小。
“我们希望我们的研究能够实现与音乐互动的新方法,”该研究的高级作者Eli Shlizerman副教授说。“例如,未来的一个应用是,Audeo可以扩展到虚拟钢琴,摄像头只记录一个人的手。此外,通过将摄像头放在真实的钢琴之上,Audeo有可能协助教学生如何演奏的新方法。”
相关文章
- 百度发布文心4.5与X1大模型,微美全息软硬协同算力生态树立AI典范
- 技术破局、AI赋能,弘成论文产品助力教学质量提升
- 高途大学生高分盛典:大数据和AI的赋能,新品发布!
- TDengine 发布时序数据分析 AI 智能体 TDgpt,核心代码开源
- 商汤2024年度业绩:“三位一体”战略成效显著,生成式AI连续两年实现三位数增长
- 产业 AI 的 GPT 时刻来了!艾氪智能世界树AI发布:企业流通成本降低90%,产业流通效率提升1300倍
- AI共启时代新未来|“AI引领,智赋万企”高峰论坛圆满落幕
- “AI+教育“深度融合,深中龙岗集团与点猫科技开启校企协同新篇章
- 新突破|标贝科技AI数据平台解锁百亿像素点云图像“零拼接”标注
- TCL华星赵斌:AI与APEX技术品牌深度融合的思考与实践
- 知乎直答新升级:溯源答主社区真实创作,强化AI与人的连接
- 全球游戏技术风向标GDC召开,腾讯等中国游戏厂商分享AI、渲染等前沿游戏技术
- 平板笔记本ROG幻X 2025搭载AMD 锐龙 AI Max+ 395 游戏、生产力、AI全能
- ROG幻X 2025 128GB版本预约中,搭载AMD 锐龙 AI Max+ 395移动处理器
- 第一线DYXnet协同华为构建AI算网 加速企业大模型私域部署
- 鼎捷数智携手华为云,共建AI创新生态