解码「天工SkyMusic」，填补AI音乐领域技术空白-爱云资讯

这几周，全球无不对AI音乐大模型那”以假乱真“的音乐创作能力感到惊奇不已，甚至有人认为“AI将革新音乐产业”。

而位居这场革新风暴中心的，正是昆仑万维推出的国内唯一公开可用的AI音乐生成大模型——「天工SkyMusic」。

自开启邀测以来，「天工SkyMusic」已经在互联网上刷爆了存在感，成为网友们改编、二创音乐的新晋网红神器。

迟迟等不到的“音乐ChatGPT”时刻

相信大家在体验「天工SkyMusic」时，都会有一个疑问：隔壁AI视频生成大模型都开始辅助创作了，为什么「天工SkyMusic」这类AI音乐生成大模型才才崭露头角？

原因在于构建生成高质量音乐的AI大模型，所面临的复杂度远超想象。

一方面是技术路线的选择，AI音乐生成大模型有两种主流技术路线，符号音乐生成和大模型音乐音频生成。前者以MIDI为主要流派，其本身不包含音频文件，而是记录音乐演奏的指令，比如哪个音符被播放、音量是多少、音符持续的时间等，不能生成直接听的音乐。

学术与产业界在符号派的AI音乐生成上投入了大量研究，但是始终效果不佳。

相反，深度学习大规模音频数据则通过大模型端对端的方案，直接生成包含乐器、人声、旋律等音乐元素的完整音频作品。它需要模型具备极高的模拟精确度、大规模的高品质音频数据集、庞大的算力支撑……

这是一条预期效果更好，但是难度非常高的技术路径，业内只有很少玩家展开研究。

同时，鉴于歌声在音乐审美中的核心地位，AI对人声歌唱逼真模拟的研究也尤为关键。遗憾的是，受限于技术发展，以往AI音乐生成模型更关注无人声演唱的背景音乐（Background Music，BGM）领域，而非包含人声演唱的Song领域，因此行业内缺乏有效的解决方案。

因此在AI音乐生成领域，无论是OpenAI的JukeBox、Meta的MusicGen，还是Google的MusicLM，它们虽然逐步解决了AI音乐生成中的痛点，但距离生成高品质且类型丰富的音乐作品还有一定距离。

「天工SkyMusic」自研发阶段即确立目标，要开发一款辅助用户创作高质量音乐的工具。团队毅然选择了AI音乐生成大模型的道路，并决定重点攻克人声歌唱难题，勇敢涉足AI音乐制作领域内两个最具挑战的无人区。

「天工SkyMusic」架构诞生记

面对大模型音乐音频生成+人声Song这两个近乎空白的技术领域，昆仑万维倾注了海量研发资源和算力算法投入，不断试错，终于自主研发出一套音乐音频领域的大模型架构。

这是一套类似Sora的DiT大模型架构，采用LLM+Diffusion的核心模块组成。

其中，用户输入的参考音乐会被拆解为不同的Music Patches，由Large-scale Transformer负责谱曲，来学习Music Patches的上下文依赖关系，同时完成音乐可控性。

同时，Diffusion Transformer将负责大模型的“演唱”部分，通过LDM（Latent Diffusion Model）扩散模型让Music Patches被还原成成44.1KHz的高品质立体声的音频。

昆仑万维这套高效、灵活且具有情感表达能力的音乐生成模型架构，填补了音频生成+人声Song这两技术领域的空白，堪称AI音乐生成领域的一大技术飞跃，也让昆仑万维公开「天工SkyMusic」技术原理图的举措更让人敬佩，它不仅打破了行业内的封闭状态，更为更是为整个产业铺垫了一条可复现的技术路径，大大降低整个AI音乐生成产业的研发风险。

AI音乐破晓：「天工SkyMusic」的中国式突破

从「天工SkyMusic」的技术分析中我们可以看到，昆仑万维在研发过程中克服了诸多技术难题，为我们打造出一个真正意义上，能高效创作高品质音乐的AI音乐生成大模型。在这里，我们可以生成时长80秒，采样率44.1KHz的双声道立体声歌曲，还可以通过歌词控制歌曲的情绪变化，精确区分不同音乐结构间的情感起伏，也可完成各种复杂歌唱技巧。

而且较之国外同类产品，「天工SkyMusic」最明显的差异是在中文人声歌唱上发音纯正清晰，无明显机械痕迹，效果逼真的程度足以“以假乱真”。这不仅让中文歌词韵味和情感表达更为出色，也在表达中国文化特有的意境与情感内涵时，更加贴合国人的审美习惯与情感认同，形成独有的差异化优势。

情感AGI待放：天工SkyMusic」引领情感创作变革

「天工SkyMusic」作为昆仑万维 “All in AGI和AIGC”战略下在音乐领域的先锋之作，填补了传统AGI侧重于智力拓展而忽视情感维度的空白，标志着昆仑万维在情感AGI研究中取得的重大突破。

如今，「天工SkyMusic」不仅降低音乐创作门槛，让更多普通用户能够借助这款全民音乐创作工具的力量，更好地通过音乐这一媒介，表达自己的情感和创意。未来，随着昆仑万维在情感AGI技术上不断的突破，「天工SkyMusic」将具备更多令人惊叹的创作能力，亦有望成为辅助专业音乐创作者的利器。

解码「天工SkyMusic」，填补AI音乐领域技术空白

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业