英伟达推出可创作音乐、修改语音的AI模型Fugatto-爱云资讯

（爱云资讯消息）英伟达推出了一款新的生成式音频AI模型，它可以根据用户简单的文本和音频提示生成各种声音、音乐甚至语音。

这个模型被命名为Fugatto，又名基础生成式音频变换器Opus 1。根据11月25日的公告信息，它可以仅根据文本提示生成铃声和歌曲片段，对现有曲目添加或删除乐器和人声，修改声音的口音和情感，甚至让人们创造出前所未有的声音。

英伟达应用音频研究部门的经理拉斐尔·瓦莱（Rafael Valle）表示，“我们希望创建一个能够像人类一样理解和生成声音的模型，Fugatto是我们朝着未来迈出的第一步，在那个未来，音频合成和转换的无监督多任务学习将从数据和模型规模中涌现出来。”

英伟达指出，音乐制作人可以使用AI模型快速原型化和审核各种音乐风格和不同编排的歌谱，或者为现有曲目添加效果和额外的音轨。Fugatto模型还可以用于适应和本地化现有广告活动的音乐和旁白，或者在游戏玩家通过关卡时实时调整游戏音乐。

Fugatto模型甚至能够产生以前闻所未闻的声音，如咆哮的小号或喵喵的萨克斯。在此过程中，它使用了一种称为ComposableART的技术来组合它在训练期间学到的指令。

英伟达AI研究员罗汉·巴达兰尼（Rohan Badlani）表示，“我想让用户以主观或艺术的方式组合属性，选择他们对每个属性的强调程度。在我的测试中，结果常常令人惊喜，让我感觉自己仿佛是一位艺术家，尽管我是一名计算机科学家。”

Fugatto模型本身使用了25亿个参数，并在32个H100 GPU上进行训练。像这样的音频AI技术正变得越来越常见。4月份，Stability AI推出了一个类似的系统，可以生成长达三分钟的曲目，而谷歌的V2A模型则可以为任何视频输入生成无限数量的音轨。

YouTube最近推出了一款AI音乐混音器，它根据输入歌曲和用户的文本提示生成一段30秒的样本。甚至连OpenAI也在这一领域进行实验，今年4月推出了一款AI工具，只需15秒的样本音频即可完全克隆用户的声音和发声模式。

英伟达推出可创作音乐、修改语音的AI模型Fugatto