Stable Audio 3.0とは？4モデルの仕様・6分20秒生成・ライセンス・Sunoとの違いを完全解説【2026年5月リリース】

Stable Audio 3.0は、Stability AIが2026年5月20日にリリースした音楽・効果音生成AIモデルファミリーです。 最大6分20秒のステレオ楽曲を生成でき、3モデルがオープンウェイト（重みデータ公開）で配布されている点が最大の特徴です。ただし、すべてのモデルが器楽（インストゥルメンタル）専用であり、ボーカルや歌詞入り楽曲には対応していません。これはSuno・Udioとの最大の違いです。

この記事では以下の情報を整理しています。

4つのモデルの仕様と用途別の選び方
できること・できないことの整理
商用利用に関するライセンス条件（年収による閾値あり）
Suno・Udio・Google Lyriaとの比較
実際に使い始める3通りの方法と料金目安

この記事が役立つ人: 音楽クリエイター・ゲームオーディオ担当者・映像制作者・AIに関心のある開発者・商用利用を検討している事業者

出典: Stability AI 公式サイト

Stable Audio 3.0とは — 4モデルで構成される音楽生成AIファミリー

Stable Audio 3.0は、Stability AIが開発したテキストプロンプトから音楽・効果音を自動生成するAIモデルシリーズです。Small SFX・Small・Medium・Largeの4モデルで構成されており、用途や環境に応じて選択できます。

前バージョンのStable Audio 2.0（2024年リリース、最大3分）と比較して、最大生成時間が2倍以上の6分20秒に延長されたのが大きな進化点です。また、前バージョンはエンタープライズ向けの提供が中心でしたが、3.0ではSmall・Small SFX・MediumモデルがHugging Face上でオープンウェイト公開されており、個人・研究者・スタートアップが無料でダウンロードして利用できます。

Stable Audio 3.0の基本情報

項目	内容
開発元	Stability AI（英国）
リリース日	2026年5月20日
生成形式	44.1 kHz ステレオ（32ビットフロート）
提供形態	オープンウェイト（Hugging Face）/ Webアプリ / API
学習データ	ライセンス済み（AudioSparx + Freesound CC）
ボーカル対応	❌ 器楽（インストゥルメンタル）専用
技術文書	arxiv:2605.17991

4つのモデルの仕様と選び方

Stable Audio 3.0は、用途・環境・予算に応じて選べる4つのモデルで構成されています。

出典: Hugging Face — stabilityai/stable-audio-3-medium

4モデルの仕様一覧

モデル名	パラメータ数	最大生成時間	公開形式	動作環境	H200推論速度
Small SFX	約459M	約2分	オープンウェイト	CPU・モバイル・オフライン可	0.44秒
Small	約459M	約2分	オープンウェイト	CPU・モバイル・オフライン可	0.44秒
Medium	1.4B	6分20秒	オープンウェイト	Consumer GPU（Flash Attention 2必須）	1.31秒
Large	2.7B	6分20秒	クローズド（APIのみ）	データセンターGPU	1.80秒

参考: パラメータ数についてはGitHubドキュメントで433M、テクニカルレポートおよびTechCrunchでは459Mと表記がやや異なります。SAMEオートエンコーダを含むか否かの違いと考えられます。

Small SFX — 効果音・フォーレイ専用の軽量モデル

Small SFXは、ゲームオーディオ・映像ポストプロダクションの効果音（SFX）・フォーレイ・アンビエント音生成に特化した軽量モデルです。約459Mパラメータと小規模ながら、スマートフォンやラップトップのCPUだけでオフライン動作できる業界初の設計が最大の特徴です。Hugging Faceから無料でダウンロードできます。

Small — 汎用・オンデバイス対応の入門モデル

Smallは音楽全般の生成に対応する汎用モデルです。Small SFXと同じパラメータ規模でありながら、音楽生成に最適化されています。MacBook Pro M4での動作が数秒以内と報告されており、インターネット接続なしでのオフライン生成が可能です。ARMとのパートナーシップによるモバイル最適化も進んでいます。

Medium — 6分20秒生成対応のバランス型モデル

Mediumは1.4Bパラメータの中規模モデルで、フルレングス楽曲の生成（最大6分20秒）に対応するオープンウェイトモデルの中では最上位です。Consumer GPU環境が必要で、Flash Attention 2のインストールが前提となります。Hugging Faceから重みをダウンロードして自前の環境で動かせる点が、同程度の品質を持つクローズドモデルとの最大の差別化ポイントです。

注意: GitHubドキュメントではMediumモデルの最大生成時間を「約4.75分（285秒）」とする記述もあります。6分20秒はトレーニング後チェックポイント時の仕様である可能性があります。

Large — 最高品質・APIのみ提供

Largeは2.7Bパラメータの最上位モデルです。最高品質の楽曲生成が可能ですが、重みデータは非公開でセルフホスト不可。Stability AI APIやfal.ai経由での利用のみとなります。個人・無料では利用できません。

Stable Audio 3.0でできること

1. テキストプロンプトから音楽・効果音を生成

ジャンル・BPM・楽器編成・気分・シーンなどをテキストで指定するだけで楽曲を生成できます。例えば「120 BPM, cinematic orchestral, epic battle scene, no vocals」のような英語プロンプトで方向性を指定します。

日本語プロンプトに関する注意: 公式ドキュメントでは、英語以外のプロンプトでは生成品質が低下する旨が明記されています。日本語でのプロンプト入力は現時点では推奨されていません。

2. オーディオ編集・インペインティング

楽曲の特定区間を指定して再生成する「インペインティング」機能に対応しています。

単一セグメント編集: 特定の区間（ノイズ除去・置換など）
複数セグメント同時編集: 複数箇所をまとめて修正
楽曲の延長（Causal Continuation）: 生成した楽曲の末尾からシームレスに続きを追加

3. LoRA微調整でオリジナルスタイルを学習

自社・自分の音声ライブラリを使ったLoRA（Low-Rank Adaptation）微調整に対応しています。

独自サウンドのスタイルを学習させてカスタムモデルを作成
複数のLoRAスタイルをブレンドして実行時に調整
Small・Medium向けのLoRAトレーニングドキュメントがモデル重みと同時公開済み

4. オンデバイス・オフライン実行（Small/Small SFXのみ）

Smallモデル系列は、データセンターへのアクセスなしにデバイス上で完結する音楽生成を実現しています。これはAI音楽生成モデルとして業界初のアプローチで、ARMとのパートナーシップによるモバイル最適化が進んでいます。オフライン環境での制作・本番でのリアルタイム利用などに対応できます。

できないこと・制約（導入前に必ず確認）

Stable Audio 3.0を使う前に以下の制約を把握しておくことが重要です。

❌ ボーカル・歌詞入り楽曲は非対応（最重要）

すべてのモデルが器楽（インストゥルメンタル）専用です。 公式テクニカルレポートでは「TrackType: Music, VocalType: Instrumental」を前提に学習されていることが明記されており、歌詞・ボーカルのある楽曲の生成には対応していません。

「AIで歌声入りの曲を作りたい」「自分の歌詞でAIに楽曲を作らせたい」という用途では、SunoやUdioが適しています。

❌ 日本語プロンプトでは品質が低下

公式ドキュメントに明記されているとおり、英語以外のプロンプトでは生成品質が下がります。

❌ Largeモデルはセルフホスト不可

最高品質のLargeモデルを使うには、Stability AI APIまたはfal.ai等のクラウドAPIを利用する必要があります。個人がオフラインで動かすことはできません。

❌ Mediumの動作にFlash Attention 2が必要

MediumモデルはConsumer GPUが前提で、さらにFlash Attention 2の導入が必要です。環境によっては追加のセットアップ作業が発生します。

❌ ナレーション・音声（ボイス）生成は対象外

音楽・効果音に特化したモデルのため、ナレーション・音声合成・テキスト読み上げ等の用途には利用できません。

3通りのアクセス方法と料金の目安

Stable Audio 3.0には主に3つのアクセス方法があります。

Stable Audio Webアプリ（stableaudio.com）のインターフェース

出典: Stable Audio 公式 Web アプリ

方法①: stableaudio.com — Webブラウザで即座に利用

インストール不要で今すぐ試したい場合はWebアプリが最も手軽です。

無料プラン: 利用可能（生成数・生成時間に制限あり）
Proプラン: 約$11.99/月（目安、公式ページで要確認）
使えるモデル: 主にMedium相当
対象ユーザー: 個人クリエイター・初めて試す人

⚠️ 料金は変動する可能性があります。最新の料金は公式サイトで必ず確認してください。

方法②: Hugging Face — オープンウェイトモデルのセルフホスト

技術者向けの方法です。モデル重みをダウンロードして自前の環境で実行します。

費用: モデルダウンロード自体は無料
利用可能モデル: Small SFX・Small・Medium
必要環境: Small系はCPU可。MediumはGPU + Flash Attention 2必須
公式リポジトリ: stabilityai/stable-audio-3-medium
GitHubリポジトリ: Stability-AI/stable-audio-3
対象ユーザー: 開発者・研究者・エンジニア

方法③: API — アプリ組み込みやバッチ処理

アプリケーションへの組み込みやバッチ処理が必要な場合はAPIが適しています。

Stability AI API (platform.stability.ai): クレジット課金制。Stable Audio 3.0固有の単価は公式ページで確認
fal.ai: サードパーティAPIプロバイダー（Stable Audio Largeを含む）。参考値として旧バージョンで$0.20/生成前後との情報あり、3.0は要確認
Replicate: ComfyUI統合パートナーとして開発中
対象ユーザー: 開発者・SaaS構築者・プロダクション環境での利用

⚠️ API料金はプロバイダー・プランによって変動します。商用利用前に各社の公式料金ページを確認してください。

ライセンスと商用利用条件

Stable Audio 3.0は、ライセンスの範囲内で商用利用が可能です。 ただし、年間収益による閾値があり、大企業向けの条件が異なります。また注意すべき二重ライセンス条件があります。

Stable Audio 3.0のライセンス体系（Community / Enterprise）

出典: GitHub — Stability-AI/stable-audio-3

Community License（コミュニティライセンス）

項目	内容
対象	年間収益100万ドル（約1.5億円）未満の個人・スタートアップ・研究者・小規模事業者
費用	無料
商用利用	✅ 生成した出力物の完全所有権あり・自由に配布・商業化可能
改変・再配布	✅ モデル重みのダウンロード・改変が可能
制限	Stability AIへの訴訟提起で即時ライセンス終了
注意事項	Gemma Terms of Use（Google）への別途同意が必要

Enterprise License（エンタープライズライセンス）

項目	内容
対象	年間収益100万ドル超の中～大企業
費用	有料（要問い合わせ）
商用利用	✅（法的補償・インデムニフィケーション付き）
サポート	カスタムモデルトレーニング・実装サポート
申込方法	Stability AI 営業チームへ問い合わせ

⚠️ 二重ライセンス条件：Gemma Terms of Use

Stable Audio 3.0はテキストエンコーダとしてGoogleのT5Gemmaを使用しているため、Stability AI Community Licenseに加えて、GoogleのGemma Terms of Useへの同意も別途必要です。Hugging Faceからダウンロードする際に確認が求められます。

商用利用判断の整理

状況	適用ライセンス	費用
個人・年収1.5億円未満の事業者	Community License	無料
研究・学術利用	Community License	無料
年収1.5億円超の企業	Enterprise License	有料（要交渉）
法的補償が必要な用途	Enterprise License	有料

Suno・Udio・Google Lyriaとの比較

Stable Audio 3.0の立ち位置を理解するには、主要な競合との比較が不可欠です。

比較項目	Stable Audio 3.0	Suno v5.5	Udio	Google Lyria 3 Pro	ElevenLabs Music
最大生成時間	6分20秒	8分	要確認	未確認	5分
ボーカル生成	❌ 器楽のみ	✅	✅	✅	✅
オープンウェイト	✅（3モデル）	❌	❌	❌	❌
ローカル実行	✅（Small系）	❌	❌	❌	❌
LoRA微調整	✅	❌	❌	❌	未確認
ライセンス済みデータ	✅（UMG・WMG）	❌（訴訟中）	△（一部解決）	✅（YouTube）	✅（Believe等）
月額費用（目安）	約$11.99（Pro）	$30（Pro）	$10（Standard）	要問い合わせ	$9.99
日本語プロンプト	⚠️ 品質低下	対応	対応	未確認	未確認
著作権リスク	低（訴訟係争中）	高（RIAA訴訟）	中	低（SynthID）	低

※ 料金は2026年6月時点の公表値をもとにした目安。変動する可能性があります。

Stable Audio 3.0が圧倒的に優位な領域

オープンウェイト・セルフホスト: Suno・Udio・Lyria・ElevenLabsはすべてクローズドモデル。ローカル実行・カスタマイズ・プライバシー確保が必要な用途で唯一の選択肢
LoRAによるカスタム学習: 競合他社に同等機能はなし
器楽・SFXの専門性: インストゥルメンタル特化のチューニングで効果音・映像BGM・ゲームオーディオでの品質が高い
学習データの透明性: AudioSparx（806,284トラック）+ Freesound CCという具体的な内訳を公開

競合が優位な領域

ボーカル入り楽曲: SunoとUdioが圧倒的。歌詞・ボーカルを含む楽曲はStable Audio 3.0では作れない
生成時間: Sunoの8分に対し、Stable Audio 3.0のMediumは6分20秒
日本語対応: Suno・Udioは日本語プロンプトへの対応が良好。Stable Audio 3.0は英語推奨
法的確実性: Google Lyria 3（YouTubeライセンス + SynthID透かし）が最も安全な法的立場

こんな人におすすめ／おすすめしない人

こんな人・用途におすすめ

✅ ゲームオーディオ担当者・インディーゲーム開発者
効果音（SFX）・BGM・アンビエント音の生成に強く、ローカル実行可能なため開発パイプラインへの組み込みが容易。Small SFXモデルは軽量でリアルタイム近いワークフローに対応できます。

✅ 映像クリエイター・映画ポストプロダクション担当者
フォーレイ・効果音・背景音楽の生成に最適。商用利用可能（Community License）で、生成物の権利は完全にクリエイター側にあります。

✅ 商用BGM・プロダクション音楽のクリエイター（年収1.5億円未満）
AudioSparxおよびUniversal・Warner Musicとの提携によるライセンス済みデータ学習で、競合比で著作権リスクが低め。生成物を商用配信できます。

✅ 開発者・AIエンジニア（独自モデル構築・組み込み用途）
Hugging Faceから重みをダウンロードしてファインチューニング・LoRAカスタマイズ・API統合が可能。オープンウェイトの価値が最大限に発揮できる用途です。

✅ 研究者・学術利用
オープンウェイト公開・テクニカルレポート公開（arxiv:2605.17991）・LoRAトレーニングドキュメント公開で、研究目的での利用環境が整っています。

こんな人・用途にはおすすめしない

❌ ボーカル・歌詞入り楽曲を作りたい人
Stable Audio 3.0は器楽専用です。AIに歌わせたい・歌詞を書いてAIに曲をつけてほしいという用途にはSuno v5.5またはUdioが適しています。

❌ 日本語プロンプトで気軽に使いたい人
英語以外のプロンプトでは品質が低下します。日本語での気軽な利用にはSunoの方が適しています。

❌ 年収1.5億円以上の企業で法的補償が必要な場合
Enterprise Licenseが必要で費用が発生します。また訴訟係争中のリスク（Anders Manga訴訟・2026年6月時点係争中）を踏まえた社内法務確認を推奨します。

❌ 完全な著作権クリアを確約が必要な用途
Anders Manga訴訟が2026年6月時点で係争中のため、法的に100%安全なクリアランスが必要な場合は、SynthID透かし付きのGoogle Lyria 3の方が現時点では安全な立場をとっています。

技術アーキテクチャ（深掘り）

公式テクニカルレポート（arxiv:2605.17991）をもとに、Stable Audio 3.0の技術的な仕組みを整理します。

SAME（Semantic-Acoustic Music Encoder）

Stable Audio 3.0の核心は、新開発のSAME（セマンティック音響オートエンコーダ）です。

44.1kHzステレオ音声 → 256次元連続潜在変数に圧縮
4096倍のダウンサンプリング（パッチング256倍 + Transformer Resamplingブロック16倍）
約10.76 Hzの潜在系列レートで時間方向の情報を保持
SmallモデルにはSAME-S（108M）とSAME-L（852M）の2種類のオートエンコーダ

拡散トランスフォーマー

AdaLN（Adaptive Layer Normalization）: タイムステップ・継続時間を条件として与える
クロスアテンション: 凍結したT5Gemmaエンコーダで処理したテキストプロンプトとの接続
Differential Attention（MediumとLargeのみ）: 2つの独立した注意マップを減算することでノイズを抑制
Memory Embeddings（64個の学習トークン）: グローバルコンテキストの提供

3段階トレーニング

Flow Matching事前学習: 音声生成の基礎能力を習得
蒸留ウォームアップ（DistillationWarmup）: 少ないステップでの高品質生成を実現
敵対的後学習: 相対的損失 + コントラスト正規化 + CLAPアライメントで品質を向上

この3段階トレーニングにより、CFG（Classifier-Free Guidance）が不要な設計が実現されており、Ping-Pong Samplingと組み合わせることで段階的な品質向上を達成しています。

著作権・法的リスクの現状（2026年6月時点）

AI音楽生成ツールの著作権リスク比較（Stable Audio 3.0 / Suno / Udio）

ライセンス済みデータ学習の主張

Stability AIは「すべてのモデルがライセンス済みデータのみで学習されている」と公式に主張しています。学習データは以下の2種類から構成されます。

AudioSparx: 806,284トラック（プロダクション音楽ライブラリ、ライセンス済み）
Freesound（Creative Commons）: CC-0（266,324ファイル）・CC-BY（194,840ファイル）・CC-Sampling+（11,454ファイル）

著作権コンテンツの除去には、PANNs音楽検出（30秒閾値・0.15活性化）と第三者検証が適用されています。

また、2025年10〜11月にはUniversal Music GroupおよびWarner Music Groupと「責任ある生成AIツール」共同開発のパートナーシップを締結しており、メジャーレーベルとの関係構築で業界的な信頼性を高めています。

⚠️ Anders Manga訴訟（2026年1月提訴・係争中）

ただし、「ライセンス済みだから安全」と断言できない現実があります。

2026年1月、ミュージシャンのAnders Manga氏がStability AIおよびAudioSparxを著作権侵害で提訴しました。AudioSparxとの既存ライセンス契約は「生成AI用途」を想定していなかったという主張で、2026年6月現在も係争中です。

競合他社の状況と比較すると:

ツール	著作権訴訟の状況	備考
Stable Audio 3.0	⚠️ Anders Manga訴訟係争中	ライセンス済み主張あり
Suno v5.5	⚠️ RIAA訴訟係争中（高リスク）	ライセンスなしの学習を認定
Udio	△ 一部解決	楽曲削除・フィルター追加等で対応
Google Lyria 3	比較的低リスク	YouTubeライセンス + SynthID透かし
ElevenLabs Music	比較的低リスク	Believe等との提携

Stable Audio 3.0はSunoと比較すれば著作権リスクは低いものの、訴訟が完全解決するまでは「法的に100%クリア」とは言い切れない状況です。商用利用を検討する場合は、最新の訴訟状況を定期的に確認することを推奨します。

よくある質問（FAQ）

Q. Stable Audio 3.0は日本語のプロンプトで使えますか？
公式ドキュメントでは英語プロンプトを推奨しています。日本語プロンプトでは生成品質が低下する旨が明記されており、現時点では英語でのプロンプト入力を強く推奨します。

Q. ボーカル付きの楽曲を生成できますか？
できません。Stable Audio 3.0の全モデルは器楽（インストゥルメンタル）専用です。歌詞・ボーカル付き楽曲が必要な場合はSunoまたはUdioを選んでください。

Q. 個人が趣味で使う場合も商用利用のライセンスが必要ですか？
年間収益100万ドル（約1.5億円）未満の個人・スタートアップはCommunity Licenseで無料で商用利用できます。趣味利用はもちろんこの範囲内です。ただし、Gemma Terms of Use（Google）への別途同意が必要な点に注意してください。

Q. MediumモデルをMacBookで動かせますか？
MediumモデルはConsumer GPU + Flash Attention 2が必要です。MacBook ProのApple Siliconで動作する可能性はありますが、公式にはGPU環境（Flash Attention 2対応）が推奨されています。SmallモデルはMacBook Pro M4でも数秒以内に生成できるとの報告があります。

Q. Stable Audio 3.0で生成した楽曲を音楽配信（Spotify・Apple Music等）でリリースできますか？
年収1.5億円未満の事業者であれば、Community Licenseの下で生成した音楽を商業配信できます。ただし、訴訟係争中のリスクを踏まえ、商業利用前にライセンスの最新状況と関連ガイドラインを確認することを推奨します。

Q. ComfyUIからStable Audio 3.0を使えますか？
ComfyUIはStability AIの主要パートナーとして記載されており、統合が進められています（2026年6月時点では開発中・準備段階）。

Q. Stable Audio Open 1.0との違いは何ですか？
Stable Audio Open 1.0はStable Audio 3.0の前世代にあたる旧オープンソース版です。3.0は生成時間の大幅延長（最大6分20秒）・モデルファミリー化・LoRA対応・オンデバイス実行対応など、大幅な機能拡張が行われています。

まとめ：Stable Audio 3.0はどんな人に選ばれるか

Stable Audio 3.0は、器楽・SFX特化の音楽生成AIとして、オープンウェイト・ローカル実行・LoRAカスタマイズという3つの点で競合他社にはない独自性を持っています。

選ぶべき人	理由
ゲームオーディオ・映像制作者	SFX・BGM生成に特化。ローカル実行可
開発者・AIエンジニア	オープンウェイト・LoRA対応で自由にカスタマイズ
小規模事業者・スタートアップ（年収1.5億円未満）	Community Licenseで無料商用利用可
研究者・学術利用	テクニカルレポート公開・重み公開で研究環境が整っている