1)模型架构类型
- 自回归 Transformer + 离散音频 token(如 MusicGen 系、部分音乐 LM):长结构建模能力强,但按 token 推理会更慢。
- 潜空间扩散 / DiT(如 Stable Audio、Lyria 系):固定长度生成效率高、音质更干净,但单独使用时长程结构规划较弱。
- LM + 扩散混合架构(如 ACE-Step 1.5、HeartMuLa 系):LM 负责结构与歌词对齐,扩散负责声学细节,兼顾可控性与保真度。
2)开源/闭源生态与热度
| Model | 开源状态 | 热度 / 生态地位 |
|---|---|---|
| Suno v5/v5.5 | 闭源(SaaS) | 付费用户超 200 万,ARR 约 3 亿美元,日生成量极高 |
| Udio v4+ | 闭源 | 创作者社区活跃,月访问约 180 万(近似指标) |
| Google Lyria 3 | 闭源(Gemini/Vertex API) | 依托 Gemini 生态,潜在分发规模大 |
| ACE-Step 1.5 | 开源(MIT) | GitHub 约 8.2k stars,被视为接近 Suno 的开源替代 |
| HeartMuLa(3B/7B) | 开源(Apache-2.0) | GitHub 约 4.3k stars,多语种全曲能力强 |
| YuE | 开源 | GitHub 约 6k+ stars,歌词到歌曲结构控制强 |
| AudioCraft / MusicGen | 开源 | GitHub 约 23k stars,是基础音频生态底座 |
3)API 与价格对比
| 平台 | 价格 | 说明 |
|---|---|---|
| ElevenLabs Music API | 约 $0.28 / 分钟 | 文档与商业条款成熟,适合正式产品接入 |
| Google Lyria(Vertex/Gemini) | 常见为 $0.06 / 30 秒量级 | 质量与成本平衡好,不同版本在可控性上有差异 |
| Suno | 以订阅为主,暂无官方开放开发者 API | 第三方套壳存在稳定性与策略风险 |
| Udio | 偏创作者订阅模型 | 缺少通用、成熟的官方开发者 API |
| Stable Audio 2.5 | 平台订阅计费 | 更适合器乐/BGM/音效,不是全曲人声首选 |
| 开源自托管(ACE-Step / HeartMuLa / YuE) | 主要是算力与运维成本 | 适合隐私敏感、深度定制和可控边际成本场景 |
4)生成效果对比
| 层级 | 代表模型 | 优势 | 局限 |
|---|---|---|---|
| 商业天花板层 | Suno、Udio、ElevenLabs Music、Lyria 3、MiniMax Music 2.5 | 人声自然、混音成品感强、端到端稳定性高 | 生态封闭、透明度弱、供应商依赖更高 |
| 开源近前沿层 | ACE-Step 1.5、HeartMuLa 7B | 质量已非常接近商业一线,且可控与可部署性强 | 在极端曲风和细节上仍有边界差距 |
| 结构控制优先层 | YuE | 长时歌词对齐与歌曲结构规划能力突出 | 纯音质通常弱于最强混合架构 |
| 短音频/音效开源层 | Stable Audio Open、MusicGen 系 | 适合工具链、素材片段、实验性流程 | 不是现代全曲人声目标的最优解 |
5)用户使用与市场信号
| 指标 | 数值 | 解读 |
|---|---|---|
| Suno 付费用户 | >200 万 | 验证了全曲 AI 音乐的商业化真实需求 |
| Suno 估算 ARR | 约 3 亿美元 | 说明 AI 音乐已从尝鲜走向持续生产 |
| Udio 月访问(近似) | 约 181 万 | 创作者活跃度和停留时长表现稳健 |
| 行业趋势 | AI 音乐/音频市场 CAGR 常见 20%+ | 平台、工具和垂直场景同步扩张 |
6)按场景选型
如果你要最高人声品质 + 正式 API
- 优先 ElevenLabs Music 或 Lyria。
- 单位成本更高,但能显著降低接入与合规不确定性。
如果你要大规模低成本生成
- 优先比较区域供应商与企业谈判价。
- 先做缓存层和提示词模板层,再做模型切换,可以稳住成本。
如果你要本地化部署与深度定制
- 全曲场景优先 ACE-Step 1.5 与 HeartMuLa。
- 结构研究优先 YuE,再叠加高保真渲染阶段。
如果你只做 BGM/音效
- Stable Audio 一类短音频模型通常最务实。
- 把生成、检索与授权体验做成一体化工作流。
行业主流已经转向分层混合:语义规划(LM)+ 声学渲染(Diffusion)+ Codec 重建。
开源方案已足以支撑真实业务,尤其适合隐私、成本与定制要求高的团队。
闭源模型仍在绝对质量上领先,但差距在收敛,最终应由产品约束而非噱头决定选型。
参考资料
- [2] facebookresearch/audiocraft(MusicGen): https://github.com/facebookresearch/audiocraft
- [3] Stable Audio Open 论文: https://arxiv.org/abs/2407.14358
- [4] Vertex AI Lyria 文档: https://docs.cloud.google.com/vertex-ai/generative-ai/docs/model-reference/lyria-music-generation
- [5] Gemini API Lyria 3 文档: https://ai.google.dev/gemini-api/docs/music-generation
- [6] ACE-Step-1.5 GitHub: https://github.com/ace-step/ACE-Step-1.5
- [7] HeartMuLa GitHub: https://github.com/HeartMuLa/heartlib
- [17] YuE GitHub: https://github.com/multimodal-art-projection/YuE
- [21] Suno Pricing: https://suno.com/pricing
- [24] ElevenLabs API Pricing: https://elevenlabs.io/pricing/api
- [14] Udio 流量(Semrush): https://www.semrush.com/website/udio.com/overview/