ModelSpeech & Audio AIv2.0

Stable Audio 2

by Stability AI · freemium · Last verified 2026-03-17

Stable Audio 2 from Stability AI is a latent diffusion model capable of generating up to 3-minute stereo music and audio at 44.1kHz, making it the first publicly released model to produce near-CD-quality long-form audio generation. It supports precise timing and structure control through natural language, enabling users to specify song sections, BPM, and mood with high fidelity.

https://stability.ai/stable-audio ↗

D—Poor

Adoption: C+Quality: AFreshness: B+Citations: FEngagement: F

Specifications

License: Stability AI Non-Commercial Research Community License
Pricing: freemium
Capabilities: text-to-music, text-to-audio, long-form-audio, 44khz-stereo-output, timed-generation
Integrations: stability-api
Use Cases: music-production, game-audio, film-scoring, sound-design, content-soundtracking
API Available: Yes
Parameters: Undisclosed
Context Window: N/A
Modalities: text, audio
Training Cutoff: 2024
Tags: music-generation, audio-generation, text-to-audio, stability-ai, diffusion
Added: 2026-03-17
Completeness: 87%

Index Score

Adoption

Quality

Freshness

Citations

Engagement

Need help choosing the right model?

Get Expert Guidance

Explore the full AI ecosystem on Agents as a Service