中美AI音乐正面刚，谁是最强王者？中国AI音乐生成与国外同行掰手腕，竟成全球最新SOTA！

2024-04-24 17:10:51

要说最近AI最火爆的细分领域，那就不得不提到AI音乐生成。

海外有「Suno」、「Udio」、「Stable Audio2.0」……国内目前只有昆仑万维的「天工SkyMusic」，但以上每一个AI音乐生成应用都是实打实的可上手。

那么，同为AI音乐生成领域最具代表性的产品，同样主打几分钟内即可生成高质量的音频内容，中外AI音乐生成模型究竟有何不同？哪些产品能力更被用户所看重？

接下来，就让我们以海外代表玩家「Suno」和国内代表玩家「天工SkyMusic」为对比，一探究竟，来一场实力对决吧！

首先让我们同时打开「Suno」」和「天工SkyMusic」。

目前Suno只有网页端产品使用入口，而「天工SkyMusic」则是在集成在手机APP端，这一点上来说，「天工SkyMusic」更适合国人的使用习惯。

先来说「Suno」，它的界面包括了Home、Create、Library、Ecplore等几个次级页面，Home相当于是「Suno」用户作品的“展示柜”，收纳了欢迎度较高的热门作品，以及各种音乐风格的作品合集，比如布鲁斯、说唱、古典等。点击Create即可进入创作页面。

而「天工SkyMusic」被收纳在「天工APP」的板块，同样具备用户作品展示、灵感指南等功能。相较而言，「天工SkyMusic」的界面更为简洁，创作入口更为直接。

从操作层面，虽然都是AI音乐生成应用，但这两款产品的生成逻辑有着一个极大不同。

「天工SkyMusic」让用户在曲库中选择歌曲或者是自己上传歌曲作为参考；「Suno」则需要用户用较为精准的乐理知识精准描述想要的音乐风格。

相较而言，「天工SkyMusic」对于即使没有音乐背景的小白用户，哪怕缺乏专业乐理、乐器等专业训练，也不妨碍用户精准“告诉”AI想要的是什么。

但在「Suno」的创作过程中，需要用户用自然语言准确地输入“提示词”，包括设计音乐风格相关的关键词描述，如： Pop、Folk、Acoustic，以及情绪氛围相关的词，如： Uplifting、Hopeful、Joyful……，这其实在用户上手之时，就抬高了门槛，比如该如何精准描述类似《以父之名》曲风的音乐？

「天工SkyMusic」对没有接受过专业音乐培训的普通人来说更加友好。绝大部分普通人对音乐流派的了解程度不深，对曲风的把握也不够精准，泛泛描述很难得到理想作品，找一首类似的音乐来做参考，能够比语言描述更好地表达对作曲的需求。相比之下，「Suno」可能更适合对音乐感兴趣的极客或者专业音乐人士来使用。

接下来，我们再来看看两款AI音乐应用自带的“AI作词”功能测评。

让我们以《洛阳铲》为题，看看「Suno」和「天工SkyMusic」分别给出了怎样的答卷？

整体来说，「天工SkyMusic」自动生成的歌词更符合古风效果，而「Suno」自动生成的歌词略显生硬，缺少了歌词应有的灵动与韵味。当然，让一款海外应用“说”中文已经是难为TA了，这题算附加题，不计分。

人声合成是最能体验AI音乐生成效果和音乐品质的维度。「天工SkyMusic」的AI人声合成，能够产生中文水平极高、发音清晰的歌声，展现出卓越的音频质量和逼真的演唱效果，已经达到业内SOTA水平！

在这方面，两相对比，Suno的中文演唱水平就明显差了很多，唱起中文歌来明显有一种老外说中文那味儿。下面这首Suno生成的音乐作品，确实在中文发音上既不清晰也不准确。

【用户用suno制作的中文歌】

值得一提的是，对于中文用户来说，「天工SkyMusic」还具备一个超级惊喜的功能——方言歌的创作！中国是一个拥有丰富方言文化的国家，各地的方言都有其独特的韵味和表达方式。通过提供「方言版」歌词，并使用具有方言特色的歌曲作为参照，「天工SkyMusic」就能生成出具有浓郁地方特色的音乐作品。

以用户生成的这两首四川rap和粤语情歌为例，不仅展示了方言歌曲的创作可能性，也体现了「天工SkyMusic」在中文领域的绝对优势。四川rap的热情和节奏感，粤语情歌的婉约和深情，都通「天工SkyMusic」得到了完美的复刻！

经过实际上手后的深度体验，相信中外AI音乐生成大模型大PK的胜负，已经有了明确的答案。

事实上，根据官方数据，在人声和 BGM 音质、人声自然度、发音可懂度等几个指标上，「天工 SkyMusic 」的综合性能都超越「Suno V3」，成为最新音乐 AIGC 的 SOTA 模型，让中国的自研大模型技术第一次在 AIGC 领域领跑全球。

4000亿参数，国内音乐AIGC性能之王

「天工SkyMusic」的各方面能力都能秒杀国外音乐大模型，背后的技术底气来自哪里？

这要从多年前，昆仑万维的AI布局说起。2016年公司就收购了StarMaker，负责整个产品的研发及运维工作，并以此开展AI音乐的研究及布局。

今年2月，昆仑万维发布了天工2.0，已经远超行业水准，令人惊叹！如今，4月17发布的天工3.0可谓光速成长，其模型技术知识能力提升超过20%，数学、推理、代码、文创等能力提升超过30%，相当于是一个“文武双全”的博士！

在天工3.0推出前，市面上公认最厉害的大模型Grok-1参数为3140亿，天工3.0达到了惊人的4000亿！相当于这个“博士”的大脑储存了如此庞大的信息，并能以秒为单位进行处理。

天工3.0一经发布便成为全球最大的开源MoE大模型之一。在MMBench等多项权威多模态测评结果中，“天工3.0”的表现已经超过了GPT-4V，领跑全球，给人们带来全新颠覆式的人工智能体验。

「天工SkyMusic」便是基于“天工3.0”基座开源大模型，不仅实现全球领先，还做到了AI音乐生成领域的“全球首家公开技术架构”。

「天工SkyMusic」采用音乐音频领域类Sora模型架构，但为了得到更逼真、更专业的音乐效果，绕开了目前市面上主流的符号音乐生成技术路线，选择了一条对技术要求更高，资源投入更大的大模型技术路线。

在无数次研发实验算力算法投入下，「天工SkyMusic」成功攻克难关，探索出Encoder—DiT——Decoder的最佳方案。

正是在AI领域数年深耕，才能厚积薄发。「天工SkyMusic」的发布引爆音乐产业，让专业人士不再为高昂的音乐制作成本苦恼，让热爱音乐的普通人感受到音乐创作的乐趣，更是世界看到中国自研大模型在垂直领域的实力。

“AI会取代音乐人吗？”这类问题大家也不用再担心。未来，「天工SkyMusic」将成为中国音乐产业重要的创作工具之一，帮助音乐人创作更多精良作品，提高效率。昆仑万维也将持续优化、迭代产业，推动中国AI及音乐产业蓬勃发展。

标签:

本文地址: http://www.m55.com.cn/yinyue/0e97930d2a4a61aaac54e01745e95418.html