文章目录
- 国外音乐创作大模型
- 1. Suno系列
- 2. AIVA/Amper Music
- 3. Jukebox
- 国内音乐创作大模型
- 1. 昆仑万维Mureka系列
- 2. 自由量级“音潮”
- 3. 阶跃星辰与ACE Studio联合发布的ACE-Step(音跃)
- 4. 趣丸科技天谱乐
- 国内外模型对比总结
- 1. 技术路线
- 2. 功能特色
- 3. 商业化路径
- 4. 版权与合规
国外音乐创作大模型
1. Suno系列
- 技术架构:采用自回归模型逐段生成音乐,支持超过4分钟完整歌曲创作,覆盖流行、电子等多种主流风格。
- 优势:技术成熟度高,生成音乐风格多样,但存在版权争议(因使用未经授权音乐训练数据被起诉),且乐器编排易冲突、段落衔接不够自然。
2. AIVA/Amper Music
- 技术特点:擅长交响乐和影视配乐生成。
- 优势:在特定领域(如影视配乐)有深度应用,但生成灵活性和多样性不足,难以满足复杂个性化需求。
3. Jukebox
- 技术架构:结合Transformer与VQ-VAE技术。
- 优势:生成效果接近人类创作水平,但需要长时间预训练和推理,实时性能较差。
国内音乐创作大模型
1. 昆仑万维Mureka系列
- 技术突破:
- 引入思维链(CoT)技术,通过“生成-批判-优化”循环预判音乐全局结构,解决段落衔接松散问题。
- 支持10种语言和20多种音乐风格,生成效率提升50%,听感评分达6.93分(超越Suno V4)。
- 音色克隆技术仅需10秒语音样本即可复刻用户或已故歌手音色。
- 优势:
- 生成音乐质量高、结构连贯,支持多语言和复杂风格。
- 开放API生态,支持企业定制专属模型(如游戏NPC背景音乐生成)。
- 自定义音色功能全球领先,用户可上传声音生成专属专辑。
2. 自由量级“音潮”
- 技术突破:
- 采用AR+NAR架构,拥有多模态表征能力和创新重建模型,支持高保真音乐生成。
- 研发Diffusion Transformer(DiT)实现双声道信号联合建模,构建真实声场空间。
- 推出“音果”功能,支持多首歌曲风格、情绪、音色融合再创作。
- 优势:
- 生成音乐具有丰富编曲层次和工业级制作听感。
- 跨模态输入支持文字、图片、视频生成匹配音乐(如上传海边视频生成拉丁风BGM)。
- 版权收益归用户所有,提供唯一歌曲创作凭证,降低创作门槛。
3. 阶跃星辰与ACE Studio联合发布的ACE-Step(音跃)
- 技术突破:
- 3.5B参数量轻量级模型,支持19种语言歌曲生成,涵盖中、英、日、韩等。
- 采用一阶段DiT架构+REPA技术,提升音乐结构性;DCAE与线性Transformer结合,提升生成速度。
- 优势:
- 快速生成高质量音乐(最快15秒生成整首歌),支持精准时长控制(如60秒广告配乐)。
- 提供Edit和Retake/Repaint功能,支持歌词修改、风格重生成等灵活编辑。
- 支持LoRA和ControlNet微调,适配音频编辑、人声合成等下游任务。
4. 趣丸科技天谱乐
- 技术突破:
- 首创图片、视频生成音乐功能,支持多模态输入(如上传《青花瓷》生成全新曲目)。
- 集成画面情绪理解模型,根据视频画面变化生成高契合度配乐。
- 优势:
- 生成音乐达到唱片发行级水准,支持文生音乐、音频生音乐。
- 与快手等平台合作,用户量突破4600万,实现“视频+音乐”一键生成。
国内外模型对比总结
1. 技术路线
- 国外模型(如Suno)以自回归模型为主,生成风格多样但结构松散;国内模型(如Mureka、音潮)通过思维链、多模态融合等技术提升整体性和创新性。
2. 功能特色
- 国内模型在跨模态输入、音色克隆、实时编辑等方面表现突出(如音潮支持视频生成音乐,Mureka支持自定义音色)。
3. 商业化路径
- 国外模型(如Suno)以订阅制为主,国内模型(如Mureka、ACE-Step)通过开放API、与企业合作等方式拓展生态,同时降低用户创作门槛(如音潮提供免费创作平台)。
4. 版权与合规
- 国外模型面临版权诉讼风险(如Suno被起诉),国内模型通过合规数据微调、用户创作凭证等方式规避风险。