2026 Q1

音乐生成模型生态研究

2026 年 Q1 系统综述：架构路线、开源热度、价格体系、效果对比与选型建议。

聚焦可落地的全曲音乐模型，对产品化、API 接入与本地部署的关键决策给出可执行判断。

1）模型架构类型

自回归 Transformer + 离散音频 token（如 MusicGen 系、部分音乐 LM）：长结构建模能力强，但按 token 推理会更慢。
潜空间扩散 / DiT（如 Stable Audio、Lyria 系）：固定长度生成效率高、音质更干净，但单独使用时长程结构规划较弱。
LM + 扩散混合架构（如 ACE-Step 1.5、HeartMuLa 系）：LM 负责结构与歌词对齐，扩散负责声学细节，兼顾可控性与保真度。

2）开源/闭源生态与热度

Model	开源状态	热度 / 生态地位
Suno v5/v5.5	闭源（SaaS）	付费用户超 200 万，ARR 约 3 亿美元，日生成量极高
Udio v4+	闭源	创作者社区活跃，月访问约 180 万（近似指标）
Google Lyria 3	闭源（Gemini/Vertex API）	依托 Gemini 生态，潜在分发规模大
ACE-Step 1.5	开源（MIT）	GitHub 约 8.2k stars，被视为接近 Suno 的开源替代
HeartMuLa（3B/7B）	开源（Apache-2.0）	GitHub 约 4.3k stars，多语种全曲能力强
YuE	开源	GitHub 约 6k+ stars，歌词到歌曲结构控制强
AudioCraft / MusicGen	开源	GitHub 约 23k stars，是基础音频生态底座

3）API 与价格对比

平台	价格	说明
ElevenLabs Music API	约 $0.28 / 分钟	文档与商业条款成熟，适合正式产品接入
Google Lyria（Vertex/Gemini）	常见为 $0.06 / 30 秒量级	质量与成本平衡好，不同版本在可控性上有差异
Suno	以订阅为主，暂无官方开放开发者 API	第三方套壳存在稳定性与策略风险
Udio	偏创作者订阅模型	缺少通用、成熟的官方开发者 API
Stable Audio 2.5	平台订阅计费	更适合器乐/BGM/音效，不是全曲人声首选
开源自托管（ACE-Step / HeartMuLa / YuE）	主要是算力与运维成本	适合隐私敏感、深度定制和可控边际成本场景

4）生成效果对比

层级	代表模型	优势	局限
商业天花板层	Suno、Udio、ElevenLabs Music、Lyria 3、MiniMax Music 2.5	人声自然、混音成品感强、端到端稳定性高	生态封闭、透明度弱、供应商依赖更高
开源近前沿层	ACE-Step 1.5、HeartMuLa 7B	质量已非常接近商业一线，且可控与可部署性强	在极端曲风和细节上仍有边界差距
结构控制优先层	YuE	长时歌词对齐与歌曲结构规划能力突出	纯音质通常弱于最强混合架构
短音频/音效开源层	Stable Audio Open、MusicGen 系	适合工具链、素材片段、实验性流程	不是现代全曲人声目标的最优解

5）用户使用与市场信号

指标	数值	解读
Suno 付费用户	>200 万	验证了全曲 AI 音乐的商业化真实需求
Suno 估算 ARR	约 3 亿美元	说明 AI 音乐已从尝鲜走向持续生产
Udio 月访问（近似）	约 181 万	创作者活跃度和停留时长表现稳健
行业趋势	AI 音乐/音频市场 CAGR 常见 20%+	平台、工具和垂直场景同步扩张

6）按场景选型

如果你要最高人声品质 + 正式 API

优先 ElevenLabs Music 或 Lyria。
单位成本更高，但能显著降低接入与合规不确定性。

如果你要大规模低成本生成

优先比较区域供应商与企业谈判价。
先做缓存层和提示词模板层，再做模型切换，可以稳住成本。

如果你要本地化部署与深度定制

全曲场景优先 ACE-Step 1.5 与 HeartMuLa。
结构研究优先 YuE，再叠加高保真渲染阶段。

如果你只做 BGM/音效

Stable Audio 一类短音频模型通常最务实。
把生成、检索与授权体验做成一体化工作流。

行业主流已经转向分层混合：语义规划（LM）+ 声学渲染（Diffusion）+ Codec 重建。

开源方案已足以支撑真实业务，尤其适合隐私、成本与定制要求高的团队。

闭源模型仍在绝对质量上领先，但差距在收敛，最终应由产品约束而非噱头决定选型。

参考资料

[2] facebookresearch/audiocraft（MusicGen）: https://github.com/facebookresearch/audiocraft
[3] Stable Audio Open 论文: https://arxiv.org/abs/2407.14358
[4] Vertex AI Lyria 文档: https://docs.cloud.google.com/vertex-ai/generative-ai/docs/model-reference/lyria-music-generation
[5] Gemini API Lyria 3 文档: https://ai.google.dev/gemini-api/docs/music-generation
[6] ACE-Step-1.5 GitHub: https://github.com/ace-step/ACE-Step-1.5
[7] HeartMuLa GitHub: https://github.com/HeartMuLa/heartlib
[17] YuE GitHub: https://github.com/multimodal-art-projection/YuE
[21] Suno Pricing: https://suno.com/pricing
[24] ElevenLabs API Pricing: https://elevenlabs.io/pricing/api
[14] Udio 流量（Semrush）: https://www.semrush.com/website/udio.com/overview/