Stable Audio 3.0とは?4モデルの仕様・6分20秒生成・ライセンス・Sunoとの違いを完全解説【2026年5月リリース】

この記事のポイント
Stability AIが2026年5月20日にリリースしたStable Audio 3.0を徹底解説。4モデルファミリーの仕様・最大6分20秒生成・オープンウェイト配布・商用利用ライセンス・Suno/Udioとの違いまで、導入判断に必要な情報をすべて整理します。
Stable Audio 3.0は、Stability AIが2026年5月20日にリリースした音楽・効果音生成AIモデルファミリーです。 最大6分20秒のステレオ楽曲を生成でき、3モデルがオープンウェイト(重みデータ公開)で配布されている点が最大の特徴です。ただし、すべてのモデルが器楽(インストゥルメンタル)専用であり、ボーカルや歌詞入り楽曲には対応していません。これはSuno・Udioとの最大の違いです。
この記事では以下の情報を整理しています。
- 4つのモデルの仕様と用途別の選び方
- できること・できないことの整理
- 商用利用に関するライセンス条件(年収による閾値あり)
- Suno・Udio・Google Lyriaとの比較
- 実際に使い始める3通りの方法と料金目安
この記事が役立つ人: 音楽クリエイター・ゲームオーディオ担当者・映像制作者・AIに関心のある開発者・商用利用を検討している事業者

Stable Audio 3.0とは — 4モデルで構成される音楽生成AIファミリー
Stable Audio 3.0は、Stability AIが開発したテキストプロンプトから音楽・効果音を自動生成するAIモデルシリーズです。Small SFX・Small・Medium・Largeの4モデルで構成されており、用途や環境に応じて選択できます。
前バージョンのStable Audio 2.0(2024年リリース、最大3分)と比較して、最大生成時間が2倍以上の6分20秒に延長されたのが大きな進化点です。また、前バージョンはエンタープライズ向けの提供が中心でしたが、3.0ではSmall・Small SFX・MediumモデルがHugging Face上でオープンウェイト公開されており、個人・研究者・スタートアップが無料でダウンロードして利用できます。
Stable Audio 3.0の基本情報
項目 | 内容 |
|---|---|
開発元 | Stability AI(英国) |
リリース日 | 2026年5月20日 |
生成形式 | 44.1 kHz ステレオ(32ビットフロート) |
提供形態 | オープンウェイト(Hugging Face)/ Webアプリ / API |
学習データ | ライセンス済み(AudioSparx + Freesound CC) |
ボーカル対応 | ❌ 器楽(インストゥルメンタル)専用 |
技術文書 |
4つのモデルの仕様と選び方
Stable Audio 3.0は、用途・環境・予算に応じて選べる4つのモデルで構成されています。

出典: Hugging Face — stabilityai/stable-audio-3-medium
4モデルの仕様一覧
モデル名 | パラメータ数 | 最大生成時間 | 公開形式 | 動作環境 | H200推論速度 |
|---|---|---|---|---|---|
Small SFX | 約459M | 約2分 | オープンウェイト | CPU・モバイル・オフライン可 | 0.44秒 |
Small | 約459M | 約2分 | オープンウェイト | CPU・モバイル・オフライン可 | 0.44秒 |
Medium | 1.4B | 6分20秒 | オープンウェイト | Consumer GPU(Flash Attention 2必須) | 1.31秒 |
Large | 2.7B | 6分20秒 | クローズド(APIのみ) | データセンターGPU | 1.80秒 |
参考: パラメータ数についてはGitHubドキュメントで433M、テクニカルレポートおよびTechCrunchでは459Mと表記がやや異なります。SAMEオートエンコーダを含むか否かの違いと考えられます。
Small SFX — 効果音・フォーレイ専用の軽量モデル
Small SFXは、ゲームオーディオ・映像ポストプロダクションの効果音(SFX)・フォーレイ・アンビエント音生成に特化した軽量モデルです。約459Mパラメータと小規模ながら、スマートフォンやラップトップのCPUだけでオフライン動作できる業界初の設計が最大の特徴です。Hugging Faceから無料でダウンロードできます。
Small — 汎用・オンデバイス対応の入門モデル
Smallは音楽全般の生成に対応する汎用モデルです。Small SFXと同じパラメータ規模でありながら、音楽生成に最適化されています。MacBook Pro M4での動作が数秒以内と報告されており、インターネット接続なしでのオフライン生成が可能です。ARMとのパートナーシップによるモバイル最適化も進んでいます。
Medium — 6分20秒生成対応のバランス型モデル
Mediumは1.4Bパラメータの中規模モデルで、フルレングス楽曲の生成(最大6分20秒)に対応するオープンウェイトモデルの中では最上位です。Consumer GPU環境が必要で、Flash Attention 2のインストールが前提となります。Hugging Faceから重みをダウンロードして自前の環境で動かせる点が、同程度の品質を持つクローズドモデルとの最大の差別化ポイントです。
注意: GitHubドキュメントではMediumモデルの最大生成時間を「約4.75分(285秒)」とする記述もあります。6分20秒はトレーニング後チェックポイント時の仕様である可能性があります。
Large — 最高品質・APIのみ提供
Largeは2.7Bパラメータの最上位モデルです。最高品質の楽曲生成が可能ですが、重みデータは非公開でセルフホスト不可。Stability AI APIやfal.ai経由での利用のみとなります。個人・無料では利用できません。
Stable Audio 3.0でできること
1. テキストプロンプトから音楽・効果音を生成
ジャンル・BPM・楽器編成・気分・シーンなどをテキストで指定するだけで楽曲を生成できます。例えば「120 BPM, cinematic orchestral, epic battle scene, no vocals」のような英語プロンプトで方向性を指定します。
日本語プロンプトに関する注意: 公式ドキュメントでは、英語以外のプロンプトでは生成品質が低下する旨が明記されています。日本語でのプロンプト入力は現時点では推奨されていません。
2. オーディオ編集・インペインティング
楽曲の特定区間を指定して再生成する「インペインティング」機能に対応しています。
- 単一セグメント編集: 特定の区間(ノイズ除去・置換など)
- 複数セグメント同時編集: 複数箇所をまとめて修正
- 楽曲の延長(Causal Continuation): 生成した楽曲の末尾からシームレスに続きを追加
3. LoRA微調整でオリジナルスタイルを学習
自社・自分の音声ライブラリを使ったLoRA(Low-Rank Adaptation)微調整に対応しています。
- 独自サウンドのスタイルを学習させてカスタムモデルを作成
- 複数のLoRAスタイルをブレンドして実行時に調整
- Small・Medium向けのLoRAトレーニングドキュメントがモデル重みと同時公開済み
4. オンデバイス・オフライン実行(Small/Small SFXのみ)
Smallモデル系列は、データセンターへのアクセスなしにデバイス上で完結する音楽生成を実現しています。これはAI音楽生成モデルとして業界初のアプローチで、ARMとのパートナーシップによるモバイル最適化が進んでいます。オフライン環境での制作・本番でのリアルタイム利用などに対応できます。
できないこと・制約(導入前に必ず確認)
Stable Audio 3.0を使う前に以下の制約を把握しておくことが重要です。
❌ ボーカル・歌詞入り楽曲は非対応(最重要)
すべてのモデルが器楽(インストゥルメンタル)専用です。 公式テクニカルレポートでは「TrackType: Music, VocalType: Instrumental」を前提に学習されていることが明記されており、歌詞・ボーカルのある楽曲の生成には対応していません。
「AIで歌声入りの曲を作りたい」「自分の歌詞でAIに楽曲を作らせたい」という用途では、SunoやUdioが適しています。
❌ 日本語プロンプトでは品質が低下
公式ドキュメントに明記されているとおり、英語以外のプロンプトでは生成品質が下がります。
❌ Largeモデルはセルフホスト不可
最高品質のLargeモデルを使うには、Stability AI APIまたはfal.ai等のクラウドAPIを利用する必要があります。個人がオフラインで動かすことはできません。
❌ Mediumの動作にFlash Attention 2が必要
MediumモデルはConsumer GPUが前提で、さらにFlash Attention 2の導入が必要です。環境によっては追加のセットアップ作業が発生します。
❌ ナレーション・音声(ボイス)生成は対象外
音楽・効果音に特化したモデルのため、ナレーション・音声合成・テキスト読み上げ等の用途には利用できません。
3通りのアクセス方法と料金の目安
Stable Audio 3.0には主に3つのアクセス方法があります。

方法①: stableaudio.com — Webブラウザで即座に利用
インストール不要で今すぐ試したい場合はWebアプリが最も手軽です。
- 無料プラン: 利用可能(生成数・生成時間に制限あり)
- Proプラン: 約$11.99/月(目安、公式ページで要確認)
- 使えるモデル: 主にMedium相当
- 対象ユーザー: 個人クリエイター・初めて試す人
⚠️ 料金は変動する可能性があります。最新の料金は公式サイトで必ず確認してください。
方法②: Hugging Face — オープンウェイトモデルのセルフホスト
技術者向けの方法です。モデル重みをダウンロードして自前の環境で実行します。
- 費用: モデルダウンロード自体は無料
- 利用可能モデル: Small SFX・Small・Medium
- 必要環境: Small系はCPU可。MediumはGPU + Flash Attention 2必須
- 公式リポジトリ: stabilityai/stable-audio-3-medium
- GitHubリポジトリ: Stability-AI/stable-audio-3
- 対象ユーザー: 開発者・研究者・エンジニア
方法③: API — アプリ組み込みやバッチ処理
アプリケーションへの組み込みやバッチ処理が必要な場合はAPIが適しています。
- Stability AI API (platform.stability.ai): クレジット課金制。Stable Audio 3.0固有の単価は公式ページで確認
- fal.ai: サードパーティAPIプロバイダー(Stable Audio Largeを含む)。参考値として旧バージョンで$0.20/生成前後との情報あり、3.0は要確認
- Replicate: ComfyUI統合パートナーとして開発中
- 対象ユーザー: 開発者・SaaS構築者・プロダクション環境での利用
⚠️ API料金はプロバイダー・プランによって変動します。商用利用前に各社の公式料金ページを確認してください。
ライセンスと商用利用条件
Stable Audio 3.0は、ライセンスの範囲内で商用利用が可能です。 ただし、年間収益による閾値があり、大企業向けの条件が異なります。また注意すべき二重ライセンス条件があります。

出典: GitHub — Stability-AI/stable-audio-3
Community License(コミュニティライセンス)
項目 | 内容 |
|---|---|
対象 | 年間収益100万ドル(約1.5億円)未満の個人・スタートアップ・研究者・小規模事業者 |
費用 | 無料 |
商用利用 | ✅ 生成した出力物の完全所有権あり・自由に配布・商業化可能 |
改変・再配布 | ✅ モデル重みのダウンロード・改変が可能 |
制限 | Stability AIへの訴訟提起で即時ライセンス終了 |
注意事項 | Gemma Terms of Use(Google)への別途同意が必要 |
Enterprise License(エンタープライズライセンス)
項目 | 内容 |
|---|---|
対象 | 年間収益100万ドル超の中~大企業 |
費用 | 有料(要問い合わせ) |
商用利用 | ✅(法的補償・インデムニフィケーション付き) |
サポート | カスタムモデルトレーニング・実装サポート |
申込方法 |
⚠️ 二重ライセンス条件:Gemma Terms of Use
Stable Audio 3.0はテキストエンコーダとしてGoogleのT5Gemmaを使用しているため、Stability AI Community Licenseに加えて、GoogleのGemma Terms of Useへの同意も別途必要です。Hugging Faceからダウンロードする際に確認が求められます。
商用利用判断の整理
状況 | 適用ライセンス | 費用 |
|---|---|---|
個人・年収1.5億円未満の事業者 | Community License | 無料 |
研究・学術利用 | Community License | 無料 |
年収1.5億円超の企業 | Enterprise License | 有料(要交渉) |
法的補償が必要な用途 | Enterprise License | 有料 |
Suno・Udio・Google Lyriaとの比較
Stable Audio 3.0の立ち位置を理解するには、主要な競合との比較が不可欠です。
比較項目 | Stable Audio 3.0 | Suno v5.5 | Udio | Google Lyria 3 Pro | ElevenLabs Music |
|---|---|---|---|---|---|
最大生成時間 | 6分20秒 | 8分 | 要確認 | 未確認 | 5分 |
ボーカル生成 | ❌ 器楽のみ | ✅ | ✅ | ✅ | ✅ |
オープンウェイト | ✅(3モデル) | ❌ | ❌ | ❌ | ❌ |
ローカル実行 | ✅(Small系) | ❌ | ❌ | ❌ | ❌ |
LoRA微調整 | ✅ | ❌ | ❌ | ❌ | 未確認 |
ライセンス済みデータ | ✅(UMG・WMG) | ❌(訴訟中) | △(一部解決) | ✅(YouTube) | ✅(Believe等) |
月額費用(目安) | 約$11.99(Pro) | $30(Pro) | $10(Standard) | 要問い合わせ | $9.99 |
日本語プロンプト | ⚠️ 品質低下 | 対応 | 対応 | 未確認 | 未確認 |
著作権リスク | 低(訴訟係争中) | 高(RIAA訴訟) | 中 | 低(SynthID) | 低 |
※ 料金は2026年6月時点の公表値をもとにした目安。変動する可能性があります。
Stable Audio 3.0が圧倒的に優位な領域
- オープンウェイト・セルフホスト: Suno・Udio・Lyria・ElevenLabsはすべてクローズドモデル。ローカル実行・カスタマイズ・プライバシー確保が必要な用途で唯一の選択肢
- LoRAによるカスタム学習: 競合他社に同等機能はなし
- 器楽・SFXの専門性: インストゥルメンタル特化のチューニングで効果音・映像BGM・ゲームオーディオでの品質が高い
- 学習データの透明性: AudioSparx(806,284トラック)+ Freesound CCという具体的な内訳を公開
競合が優位な領域
- ボーカル入り楽曲: SunoとUdioが圧倒的。歌詞・ボーカルを含む楽曲はStable Audio 3.0では作れない
- 生成時間: Sunoの8分に対し、Stable Audio 3.0のMediumは6分20秒
- 日本語対応: Suno・Udioは日本語プロンプトへの対応が良好。Stable Audio 3.0は英語推奨
- 法的確実性: Google Lyria 3(YouTubeライセンス + SynthID透かし)が最も安全な法的立場
こんな人におすすめ/おすすめしない人
こんな人・用途におすすめ
✅ ゲームオーディオ担当者・インディーゲーム開発者
効果音(SFX)・BGM・アンビエント音の生成に強く、ローカル実行可能なため開発パイプラインへの組み込みが容易。Small SFXモデルは軽量でリアルタイム近いワークフローに対応できます。
✅ 映像クリエイター・映画ポストプロダクション担当者
フォーレイ・効果音・背景音楽の生成に最適。商用利用可能(Community License)で、生成物の権利は完全にクリエイター側にあります。
✅ 商用BGM・プロダクション音楽のクリエイター(年収1.5億円未満)
AudioSparxおよびUniversal・Warner Musicとの提携によるライセンス済みデータ学習で、競合比で著作権リスクが低め。生成物を商用配信できます。
✅ 開発者・AIエンジニア(独自モデル構築・組み込み用途)
Hugging Faceから重みをダウンロードしてファインチューニング・LoRAカスタマイズ・API統合が可能。オープンウェイトの価値が最大限に発揮できる用途です。
✅ 研究者・学術利用
オープンウェイト公開・テクニカルレポート公開(arxiv:2605.17991)・LoRAトレーニングドキュメント公開で、研究目的での利用環境が整っています。
こんな人・用途にはおすすめしない
❌ ボーカル・歌詞入り楽曲を作りたい人
Stable Audio 3.0は器楽専用です。AIに歌わせたい・歌詞を書いてAIに曲をつけてほしいという用途にはSuno v5.5またはUdioが適しています。
❌ 日本語プロンプトで気軽に使いたい人
英語以外のプロンプトでは品質が低下します。日本語での気軽な利用にはSunoの方が適しています。
❌ 年収1.5億円以上の企業で法的補償が必要な場合
Enterprise Licenseが必要で費用が発生します。また訴訟係争中のリスク(Anders Manga訴訟・2026年6月時点係争中)を踏まえた社内法務確認を推奨します。
❌ 完全な著作権クリアを確約が必要な用途
Anders Manga訴訟が2026年6月時点で係争中のため、法的に100%安全なクリアランスが必要な場合は、SynthID透かし付きのGoogle Lyria 3の方が現時点では安全な立場をとっています。
技術アーキテクチャ(深掘り)
公式テクニカルレポート(arxiv:2605.17991)をもとに、Stable Audio 3.0の技術的な仕組みを整理します。
SAME(Semantic-Acoustic Music Encoder)
Stable Audio 3.0の核心は、新開発のSAME(セマンティック音響オートエンコーダ)です。
- 44.1kHzステレオ音声 → 256次元連続潜在変数に圧縮
- 4096倍のダウンサンプリング(パッチング256倍 + Transformer Resamplingブロック16倍)
- 約10.76 Hzの潜在系列レートで時間方向の情報を保持
- SmallモデルにはSAME-S(108M)とSAME-L(852M)の2種類のオートエンコーダ
拡散トランスフォーマー
- AdaLN(Adaptive Layer Normalization): タイムステップ・継続時間を条件として与える
- クロスアテンション: 凍結したT5Gemmaエンコーダで処理したテキストプロンプトとの接続
- Differential Attention(MediumとLargeのみ): 2つの独立した注意マップを減算することでノイズを抑制
- Memory Embeddings(64個の学習トークン): グローバルコンテキストの提供
3段階トレーニング
- Flow Matching事前学習: 音声生成の基礎能力を習得
- 蒸留ウォームアップ(DistillationWarmup): 少ないステップでの高品質生成を実現
- 敵対的後学習: 相対的損失 + コントラスト正規化 + CLAPアライメントで品質を向上
この3段階トレーニングにより、CFG(Classifier-Free Guidance)が不要な設計が実現されており、Ping-Pong Samplingと組み合わせることで段階的な品質向上を達成しています。
著作権・法的リスクの現状(2026年6月時点)

ライセンス済みデータ学習の主張
Stability AIは「すべてのモデルがライセンス済みデータのみで学習されている」と公式に主張しています。学習データは以下の2種類から構成されます。
- AudioSparx: 806,284トラック(プロダクション音楽ライブラリ、ライセンス済み)
- Freesound(Creative Commons): CC-0(266,324ファイル)・CC-BY(194,840ファイル)・CC-Sampling+(11,454ファイル)
著作権コンテンツの除去には、PANNs音楽検出(30秒閾値・0.15活性化)と第三者検証が適用されています。
また、2025年10〜11月にはUniversal Music GroupおよびWarner Music Groupと「責任ある生成AIツール」共同開発のパートナーシップを締結しており、メジャーレーベルとの関係構築で業界的な信頼性を高めています。
⚠️ Anders Manga訴訟(2026年1月提訴・係争中)
ただし、「ライセンス済みだから安全」と断言できない現実があります。
2026年1月、ミュージシャンのAnders Manga氏がStability AIおよびAudioSparxを著作権侵害で提訴しました。AudioSparxとの既存ライセンス契約は「生成AI用途」を想定していなかったという主張で、2026年6月現在も係争中です。
競合他社の状況と比較すると:
ツール | 著作権訴訟の状況 | 備考 |
|---|---|---|
Stable Audio 3.0 | ⚠️ Anders Manga訴訟係争中 | ライセンス済み主張あり |
Suno v5.5 | ⚠️ RIAA訴訟係争中(高リスク) | ライセンスなしの学習を認定 |
Udio | △ 一部解決 | 楽曲削除・フィルター追加等で対応 |
Google Lyria 3 | 比較的低リスク | YouTubeライセンス + SynthID透かし |
ElevenLabs Music | 比較的低リスク | Believe等との提携 |
Stable Audio 3.0はSunoと比較すれば著作権リスクは低いものの、訴訟が完全解決するまでは「法的に100%クリア」とは言い切れない状況です。商用利用を検討する場合は、最新の訴訟状況を定期的に確認することを推奨します。
よくある質問(FAQ)
Q. Stable Audio 3.0は日本語のプロンプトで使えますか?
公式ドキュメントでは英語プロンプトを推奨しています。日本語プロンプトでは生成品質が低下する旨が明記されており、現時点では英語でのプロンプト入力を強く推奨します。
Q. ボーカル付きの楽曲を生成できますか?
できません。Stable Audio 3.0の全モデルは器楽(インストゥルメンタル)専用です。歌詞・ボーカル付き楽曲が必要な場合はSunoまたはUdioを選んでください。
Q. 個人が趣味で使う場合も商用利用のライセンスが必要ですか?
年間収益100万ドル(約1.5億円)未満の個人・スタートアップはCommunity Licenseで無料で商用利用できます。趣味利用はもちろんこの範囲内です。ただし、Gemma Terms of Use(Google)への別途同意が必要な点に注意してください。
Q. MediumモデルをMacBookで動かせますか?
MediumモデルはConsumer GPU + Flash Attention 2が必要です。MacBook ProのApple Siliconで動作する可能性はありますが、公式にはGPU環境(Flash Attention 2対応)が推奨されています。SmallモデルはMacBook Pro M4でも数秒以内に生成できるとの報告があります。
Q. Stable Audio 3.0で生成した楽曲を音楽配信(Spotify・Apple Music等)でリリースできますか?
年収1.5億円未満の事業者であれば、Community Licenseの下で生成した音楽を商業配信できます。ただし、訴訟係争中のリスクを踏まえ、商業利用前にライセンスの最新状況と関連ガイドラインを確認することを推奨します。
Q. ComfyUIからStable Audio 3.0を使えますか?
ComfyUIはStability AIの主要パートナーとして記載されており、統合が進められています(2026年6月時点では開発中・準備段階)。
Q. Stable Audio Open 1.0との違いは何ですか?
Stable Audio Open 1.0はStable Audio 3.0の前世代にあたる旧オープンソース版です。3.0は生成時間の大幅延長(最大6分20秒)・モデルファミリー化・LoRA対応・オンデバイス実行対応など、大幅な機能拡張が行われています。
まとめ:Stable Audio 3.0はどんな人に選ばれるか
Stable Audio 3.0は、器楽・SFX特化の音楽生成AIとして、オープンウェイト・ローカル実行・LoRAカスタマイズという3つの点で競合他社にはない独自性を持っています。
選ぶべき人 | 理由 |
|---|---|
ゲームオーディオ・映像制作者 | SFX・BGM生成に特化。ローカル実行可 |
開発者・AIエンジニア | オープンウェイト・LoRA対応で自由にカスタマイズ |
小規模事業者・スタートアップ(年収1.5億円未満) | Community Licenseで無料商用利用可 |
研究者・学術利用 | テクニカルレポート公開・重み公開で研究環境が整っている |
一方、ボーカル入り楽曲・日本語プロンプトでの利用・完全な著作権クリアランスの確約が必要な用途では、他のツールも選択肢に入れるべきです。
生成AI・音楽AIツールの最新動向については、生成AIおすすめツール比較も参考にしてください。また、音楽分野以外の生成AIについては生成AIとはで体系的に解説しています。
公式リソース
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

OpenRouterとは?機能・料金・Claude/GPT/Gemini比較・$1.3B評価額まで解説【2026年5月速報】
2026/06/10

iOS 27 Apple Intelligenceとは?Siri AI・Extensions(Claude/Gemini/ChatGPT/Grok選択)完全ガイド【WWDC 2026正式発表】
2026/05/17

Microsoft 365 Copilotエージェントとは?5種類の機能・Word/Excel/PowerPoint自律実行・料金を徹底解説
2026/06/10

Claude Fable 5とは?料金・性能・Mythos 5との違い・Opus 4.8比較を完全解説【2026年6月速報】
2026/06/10

Sunoとは?料金・機能・V5.5・著作権問題を完全解説【2026年最新】
2026/06/09

Claude 5とは?2026年4月時点の公式ステータス・リリース予測・Opus 4.7との違いを徹底解説
2026/04/18

