当前位置：首页 > web >正文

深入解析NotaGen：5亿参数+三阶段训练，解锁高质量AI音乐生成

web 2025/7/17 23:57:15

人工智能（AI）的浪潮正在席卷各个领域，音乐创作也不例外。从简单的旋律生成到复杂的乐曲编排，AI展现出了惊人的潜力。然而，要生成具有深度、结构和情感的高质量古典音乐，一直是一个巨大的挑战。今天，我们将深入探讨一个在该领域取得突破性进展的开源模型——NotaGen，它凭借其庞大的参数规模和创新的训练方法，正在重新定义AI音乐生成的边界。

AI快站下载

https://aifasthub.com/ElectricAlexis/NotaGen

NotaGen：不止生成，更懂创作

首先，我们需要明确NotaGen的核心定位。它并非直接生成音频文件，而是专注于符号音乐（Symbolic Music）的生成，特别是高质量的古典音乐乐谱。这意味着NotaGen的输出是结构化的乐谱信息，可以用ABC记谱法或MusicXML格式表示，为后续的演奏、编辑和分析提供了极大的便利。

NotaGen是由中央音乐学院（CCOM）、北京航空航天大学（BUAA）、清华大学等顶尖研究机构联合开发的成果，旨在解决现有模型在生成长篇、结构复杂且富有音乐性的古典乐曲时遇到的困难。

挑战：古典音乐生成的“高门槛”

为什么生成高质量的古典音乐如此困难？

1. 长程依赖性：一首古典乐曲往往包含复杂的结构、主题的重复与发展，这对模型捕捉和维持长距离的音乐逻辑提出了极高要求。
2. 音乐理论规则：和声、对位、曲式等复杂的音乐理论规则需要被模型理解和遵循。
3. 风格多样性：从巴洛克时期的严谨到浪漫主义时期的奔放，不同时期、不同作曲家的风格迥异，模型需要具备学习和模仿特定风格的能力。

揭秘NotaGen架构：5亿参数的“音乐大脑”

NotaGen的强大能力，首先源于其精心设计的模型架构。它基于Tunesformer，并采用了分层级的双解码器结构：

Patch-level Decoder (片段级解码器): 负责捕捉音乐的局部模式和短期结构。
Character-level Decoder (字符级解码器): 在Patch-level的基础上，生成更精细的乐谱字符序列（如ABC记谱法中的音符、休止符等），确保细节的准确性。

这种分层设计使得模型能够同时关注音乐的宏观结构和微观细节。而NotaGen-large版本更是拥有高达5.16亿的参数量，为其学习复杂音乐模式提供了强大的容量支持。

核心驱动力：创新的三阶段训练范式

仅仅拥有庞大的参数是不够的，如何有效训练模型才是关键。NotaGen借鉴了大型语言模型（LLM）的成功经验，采用了创新的三阶段训练范式：

第一阶段：大规模预训练 (General Music Understanding)

目标：让模型学习广泛的音乐模式和基本结构。
数据：使用了包含约160万首不同来源和风格的乐曲（如Lakh MIDI数据集的子集）进行预训练。这使得模型具备了对音乐语言的“通识”理解。

第二阶段：监督微调 (SFT - High-Quality Classical Adaptation)

目标：将模型的能力聚焦于高质量的古典音乐乐谱生成。
数据：精选了约9000首高质量的古典音乐乐谱（涵盖巴赫、莫扎特、贝多芬等152位著名作曲家），对模型进行微调。模型在此阶段学习生成符合古典音乐规范和风格的ABC记谱法或MusicXML格式乐谱。

第三阶段：强化学习对齐 (CLaMP-DPO - Aligning with Human Preferences)

目标：进一步提升生成乐谱的音乐性、连贯性和人类偏好度。
方法：采用了名为CLaMP-DPO (Contrastive Learning and Music Preference Direct Preference Optimization) 的创新强化学习方法。通过对比学习和直接偏好优化，让模型学习区分“好”的音乐和“不太好”的音乐，使其生成结果更贴近人类作曲家的水准和审美。

这三个阶段环环相扣，使得NotaGen不仅能理解音乐，更能“创作”出符合人类期待的高质量古典乐谱。