Mercury 2とは?世界最速の推論dLLM─仕組み・料金・Claude比較まで徹底解説【2026年最新】

この記事のポイント
Mercury 2はInception Labsが開発した世界初の推論機能付き拡散型LLM(dLLM)。1,009トークン/秒という圧倒的な処理速度を誇り、APIは入力$0.25/M・出力$0.75/Mで利用可能。仕組み・料金・Claude/ChatGPTとの比較・向いている用途まで詳しく解説します。
Mercury 2は、Inception Labs(Inception AI, Inc.)が2026年2月に公開した世界初の推論機能付き拡散型大規模言語モデル(dLLM)です。公式に「世界最速の推論LLM」と位置づけられており、従来のLLMが1トークンずつ順番に出力するのとは異なり、複数トークンを並列に生成・精製する拡散型アーキテクチャにより1,009トークン/秒(NVIDIA Blackwell GPU環境)という処理速度を実現しています。
この記事では、Mercury 2の技術的な仕組み、料金・プラン、Claude・ChatGPTとの使い分け、セキュリティ上の注意点まで、導入判断に必要な情報を整理します。AIエージェントのレイテンシ削減・バッチ処理の高速化・リアルタイムUIの開発を検討しているエンジニアや、LLM選定を行っている企業担当者に特に参考になる内容です。
- Mercury 2は拡散型(Diffusion)アーキテクチャで、従来LLMの約10倍の速度を実現
- Claude 4.5 HaikuやGPT-5 Miniと同等の品質を、速度特化クラス最速で提供
- 料金は入力$0.25/M・出力$0.75/M。新規アカウントは1,000万トークン無料
- テキストのみ対応(マルチモーダル非対応)。複雑な多段階推論は大型モデルが優位
Mercury 2とは──拡散型LLMの世界最速推論モデル
Mercury 2は、2024年に設立されたスタートアップInception Labs(Inception AI, Inc.)が開発・提供している推論対応の拡散型大規模言語モデルです。CEOのStefano Ermon氏はStanford大学教授であり、MidJourneyやSoraの拡散技術の共同発明者として知られています。

開発元:Inception Labsとは
項目 | 内容 |
|---|---|
正式社名 | Inception AI, Inc. |
設立 | 2024年、パロアルト(カリフォルニア) |
CEO | Stefano Ermon(Stanford教授・拡散モデルの共同発明者) |
共同創業者 | Aditya Grover(UCLA)、Volodymyr Kuleshov(Cornell) |
チーム出身 | Stanford・UCLA・Cornell・Google DeepMind・Meta AI・OpenAI |
総調達額 | 5,600万ドル($56M) |
主要投資家 | Menlo Ventures・Databricks Ventures・M12(Microsoft)・Snowflake Ventures |
エンジェル投資家 | Andrew Ng・Andrej Karpathy |
企業評価額 | 約2億4,100万ドル |
Andrew NgやAndrej Karpathyといった著名AI研究者がエンジェル投資家として支持している点は、技術的信頼性の面で重要なシグナルです。MicrosoftのM12やSnowflake Venturesの参加により、エンタープライズ市場への展開も見据えた資本構成になっています。
生成AIの全体像については生成AIとは?仕組み・種類・活用事例をわかりやすく解説も参考にしてください。
拡散型LLM(dLLM)とは?─従来のLLMとの根本的な違い
Mercury 2を正しく評価するために、拡散型アーキテクチャの基礎を理解しておく必要があります。

従来のLLM(自己回帰型)の仕組み
Claude・ChatGPT・Geminiなど一般的なLLMは自己回帰型(Autoregressive)モデルです。テキストを「タイプライター」のように左から右へ1トークンずつ順番に生成します。前のトークンが確定してからでないと次のトークンを計算できないため、GPUの並列演算能力を十分に活用できず、生成速度に本質的な上限があります。
Mercury 2(拡散型)の仕組み
Mercury 2はマスキングベースの離散拡散プロセスを採用しています。Inception公式の表現を借りると「タイプライターではなく、一気にドラフトを書いてから編集するエディター」のように動作します。
動作フローの概要:
- 全トークン位置を
[MASK]でランダムに埋めた状態からスタート - 複数ステップかけてMASKを解除しながら最終テキストを精製
- 出力の複雑さに応じてデノイジングステップ数を動的に調整
- NVIDIA BlackwellなどのGPUの並列演算能力を最大限に活用
技術的には、画像生成のStable DiffusionやMidJourneyと同じ「拡散」という概念を、テキストの離散トークンに応用した設計です。ただしGaussian noise(ガウスノイズ)ではなく離散トークン向けの破損プロセスを採用することで、学習安定性と推論精度を確保しています。
重要な注意点: 拡散型の特性上、「最初の1トークンが出力されるまでの時間(TTFT: Time to First Token)」は自己回帰型より長くなるケースがあります。「出力全体のスループット」と「初期応答速度」は別の指標であるため、評価時は用途に合わせて判断してください。
Mercury 2の速度・ベンチマーク性能
処理速度(2026年6月時点)
独立系AIベンチマーク機関Artificial Analysisが163モデルを対象に実施した速度評価で1位を記録(914トークン/秒を実測)。公式発表値はNVIDIA Blackwell GPU環境で1,009トークン/秒です。
モデル | 速度(トークン/秒) | Mercury 2との差 |
|---|---|---|
Mercury 2 | 914〜1,009 | — |
Claude 4.5 Haiku | 約89 | 約10〜11倍遅い |
GPT-5 Mini | 約71 | 約13〜14倍遅い |
LLM中央値 | 約96 | 約10倍遅い |
品質ベンチマーク(2026年6月時点・公式発表値)
ベンチマーク | Mercury 2スコア | 評価内容 |
|---|---|---|
AIME 2025 | 91.1 | 競技数学・数学的推論 |
GPQA | 73.6 | 大学院レベルの科学問題 |
IFBench | 71.3 | 指示遵守能力 |
LiveCodeBench | 67.3 | リアルタイムコーディング |
Tau2 | 52.9 | エージェントタスク |
SciCode | 38.4 | 科学的計算 |
品質ポジションは「Claude 4.5 HaikuやGPT-5 Miniと同等水準」(速度特化の小〜中規模モデルクラス)です。Artificial Analysis Intelligence Indexでは163モデル中33位(速度は1位)という立ち位置で、「速度特化の最高品質」という独自ポジションを確立しています。
⚠️ AIME 2025の91.1などの数値は主にInception公式発表値です。Artificial Analysisが独立実測した速度(914 tok/s)を除き、他ベンチマーク結果の第三者再現検証は現時点では十分ではありません。実際の導入前に自社ユースケースでの検証を推奨します。
Mercury 2でできること
主な機能(2026年6月時点・公式確認済み)
✅ 対応している機能:
- ネイティブツール使用(Function Calling)
- スキーマ整合JSON出力
- OpenAI API互換(ベースURLとAPIキーの変更だけで移行可能)
- ストリーミング出力
reasoning_effortパラメータによる推論深さの4段階制御- 128Kトークンの長文コンテキスト処理
向いているユースケース
ユースケース | Mercury 2を選ぶ理由 |
|---|---|
AIエージェントループ | マルチツール連鎖推論のレイテンシを大幅削減 |
コーディング補助 | コード補完・リファクタリング・大規模ファイル生成を高速処理 |
リアルタイム音声AI | 低レイテンシが必須の音声インターフェースに適した速度 |
検索・RAGパイプライン | 大量ドキュメントの並列処理・回答生成を高速化 |
バッチ文書処理 | 要約・分類を大量かつ並列に高速処理 |
ストリーミングUI | ユーザーが出力をリアルタイムで確認するプロダクト |
AIエージェントの仕組みや活用方法についてはAIエージェントとは?仕組み・活用事例・主要ツールを解説でも詳しく解説しています。
Tunable Reasoning(推論レベルの使い分け)
Mercury 2の注目すべき独自機能が、reasoning_effort パラメータによる推論深さの動的制御です。タスクの複雑さに応じて4段階を切り替えることで、速度とコスト・品質のバランスを最適化できます。

レベル | 推奨ユースケース | 特性 |
|---|---|---|
| テキスト分類・意図検知・オートコンプリート・ルーティング | 最速・最低コスト |
| スキーマ抽出・要約・単一ツール呼び出し・RAG回答生成 | 高速・低コスト |
| マルチツールエージェントループ・コード編集(1〜2ファイル)・プランニング | バランス型 |
| 競技数学・深いコード推論・複雑な条件分岐付きエージェントループ | 最高品質 |
実装例(reasoning_effort の指定):
response = client.chat.completions.create(
model="mercury-2",
messages=[{"role": "user", "content": "..."}],
extra_body={"reasoning_effort": "medium"} # instant/low/medium/high
)同じモデルで「速度優先のルーティング処理」から「精度優先の数学推論」まで切り替えられるため、エージェントパイプライン内での使い分けが効率的です。
Mercury 2とMercury Edit 2の違い
2026年2月のリリースでは、Mercury 2と同時にMercury Edit 2も公開されています。混同しやすいため、用途と仕様を整理します。
項目 | Mercury 2 | Mercury Edit 2 |
|---|---|---|
目的 | 汎用推論・複雑タスク | コード編集特化・低レイテンシ |
コンテキストウィンドウ | 128K | 32K |
主な用途 | エージェント・音声AI・RAG・バッチ処理 | IDEオートコンプリート・Next Edit予測 |
料金(入力) | $0.25/M | $0.25/M |
料金(出力) | $0.75/M | $0.75/M |
一般的な推論・エージェントタスクにはMercury 2、IDE連携での高速コード補完にはMercury Edit 2が適しています。コンテキストウィンドウが32Kであることに注意が必要です(Mercury 2は128K)。
Mercury 2の料金・プラン(2026年6月時点)
Inception API(公式)料金
料金区分 | 価格 |
|---|---|
入力トークン | $0.25 / 100万トークン($0.00000025/トークン) |
出力トークン | $0.75 / 100万トークン($0.00000075/トークン) |
キャッシュ入力 | $0.025 / 100万トークン |
新規アカウント | 1,000万トークン(10M)無料 |
公式料金ページ: https://www.inceptionlabs.ai/models(最新情報は公式で要確認)
実際のコスト試算(参考):
- 入力100万トークン+出力100万トークン処理 → $1.00(約150円)
- 1日あたり出力100万トークンのアプリ → $0.75/日(月額約$22.5 / 約3,375円)
- 無料枠(10Mトークン)だけで → 出力換算で約1,333万文字分の処理が可能(目安)
他プロバイダー経由の料金
プロバイダー | 料金 | 特徴 |
|---|---|---|
Inception API(直接) | $0.25/$0.75/M | 公式。最も安定 |
OpenRouter | $0.25/$0.75/M | 複数モデルを統一エンドポイントで管理可能 |
AWS Bedrock | 別途見積もり | AWSエコシステム内での利用 |
Azure AI Foundry | 別途エンタープライズ契約 | SOC2・HIPAA対応・データがAzure内に限定 |
コスト比較に関する重要な注意点
「Mercury 2はClaude Haikuより6.5倍安い」という報道がある一方、「API単価では高い」という指摘も存在します。この乖離は以下の混同から生じています。
- Inception公式の主張(「5倍速く、コストは大幅削減」): これは主に推論インフラコストの話です。速度が速い分、同じ処理をGPU時間で見ると短時間で完了するため、データセンター運用コストが削減できるという意味合いです
- エンドユーザーが支払うAPI単価: 各モデルの公式料金ページで直接比較する必要があります
Claude・ChatGPTなどの料金は頻繁に変更されるため、最新情報は各公式料金ページで確認することを推奨します。Claude料金の詳細解説も参考にしてください。
Mercury 2の始め方(API利用手順)
アクセス方法の選択肢
方法 | 手順の概要 | 向いている人 |
|---|---|---|
Inception Platform(直接) | platform.inceptionlabs.ai でAPIキー取得 | 個人・スタートアップ |
OpenRouter経由 | OpenRouter登録後、モデルを選択 | 複数LLMを一元管理したい場合 |
AWS Bedrock | AWSマーケットプレイスからサブスクライブ | AWSユーザー |
Azure AI Foundry | Microsoftと別途エンタープライズ契約 | コンプライアンス重視の企業 |
OpenAI SDKを使った基本的な実装例
Mercury 2はOpenAI API互換のため、既存のOpenAIコードが最小限の変更で動作します。
from openai import OpenAI
client = OpenAI(
base_url="https://api.inceptionlabs.ai/v1",
api_key="YOUR_INCEPTION_API_KEY" # 環境変数での管理を推奨
)
response = client.chat.completions.create(
model="mercury-2",
messages=[
{"role": "user", "content": "次のコードをレビューしてください:..."}
],
extra_body={"reasoning_effort": "medium"} # instant/low/medium/high
)
print(response.choices[0].message.content)既存OpenAIコードからの移行ポイント:
base_url→https://api.inceptionlabs.ai/v1に変更api_key→ Inception PlatformのAPIキーに変更model→"mercury-2"に変更- (オプション)
extra_body={"reasoning_effort": "medium"}を追加
Mercury 2 vs Claude vs ChatGPT 比較
主要比較表(2026年6月時点・公式情報基準)
比較項目 | Mercury 2 | Claude 4.5 Haiku | GPT-5 Mini |
|---|---|---|---|
処理速度 | 914〜1,009 tok/s(最速) | 約89 tok/s | 約71 tok/s |
品質ポジション | Haiku/Mini相当 | 軽量クラス | 軽量クラス |
コンテキストウィンドウ | 128K | 200K | 128K |
マルチモーダル | ❌ テキストのみ | ✅ 対応 | ✅ 対応 |
推論レベル制御 | ✅ 4段階(Tunable) | ✅ 対応 | ✅ 対応 |
入力料金 | $0.25/M | 公式要確認 | 公式要確認 |
出力料金 | $0.75/M | 公式要確認 | 公式要確認 |
OpenAI API互換 | ✅ | ❌ | ✅ |
日本語対応品質 | 未詳(英語が主) | ✅ 高品質 | ✅ 高品質 |
エンタープライズ対応 | ✅(Azure/AWS経由) | ✅ | ✅ |
商用実績 | 新規(実績少) | 豊富 | 豊富 |
⚠️ Claude・ChatGPTの料金は変動が頻繁なため、最新情報は各公式ページでご確認ください。
用途別の選び分けガイド
Mercury 2を選ぶべき場合:
- AIエージェントのレスポンス速度がボトルネックになっている
- バッチ処理で大量テキストを高速・低コストで処理したい
- リアルタイム音声AIや即座のUI応答が必要なプロダクトを開発している
- 既存のOpenAIコードを最小変更で高速化したい
- マルチモーダルが不要で純粋なテキスト処理のみの用途
Claudeを選ぶべき場合:
- 複雑な多段階推論・深い論理的分析が必要
- 画像・音声を含むマルチモーダルなタスクがある
- 日本語の高品質な文章生成・校正・翻訳が主目的
- 200K以上の超長文コンテキストが必要
- 生産環境での豊富な実績・安定性を優先する
GPT-5 Miniを選ぶべき場合:
- OpenAIエコシステム(DALL-E・Whisper等)との統合が必要
- ChatGPT連携のプロダクト開発
- マルチモーダルかつ軽量・低コストのモデルが必要
Claudeの機能・料金・特徴についてはClaudeとは?機能・料金・使い方をChatGPTと徹底比較で詳しく解説しています。

できないこと・制限事項
Mercury 2が苦手とする点を把握することが、失敗しない導入判断につながります。
制限事項 | 詳細 |
|---|---|
マルチモーダル非対応 | テキスト入力のみ。画像・音声の入出力は不可 |
複雑な多段階推論 | 10ステップ以上の論理推論はClaude Opus/GPT-5相当が優位 |
一般知識の弱さ | Artificial AnalysisのGeneral Knowledge評価が低い(精度8.0%) |
日本語対応品質が未詳 | 主に英語向け設計。日本語の生成品質は公式未公開 |
商用実績が少ない | 自己回帰型に比べ新しいアーキテクチャのため、未知の失敗パターンの可能性 |
TTFT(初期応答速度) | 拡散型の特性上、最初のトークンが出るまでの時間は自己回帰型より長いケースあり |
ZDR(Vercel AI Gateway) | Vercel AI GatewayはMercury 2のZero Data Retentionに現状未対応 |
現時点でマルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。
セキュリティ・プライバシー(企業導入時の確認事項)
企業でMercury 2を導入する前に、データ利用ポリシーとセキュリティ体制を確認しておくことを強く推奨します。
データ利用ポリシー(2026年6月時点・公式確認済み)
- デフォルト設定: ユーザーの入力・出力データがモデル改善に使用される可能性あり
- オプトアウト方法: APIプラットフォームの「Account Settings」→「Improve the model for everyone」をOFFに設定
- 問い合わせ先: privacy@inceptionlabs.ai / legal@inceptionlabs.ai
- プライバシーポリシー: https://www.inceptionlabs.ai/docs/privacy-policy
個人情報・機密情報を含む業務データを処理する場合は、必ずオプトアウト設定を行うか、エンタープライズ契約を検討してください。
エンタープライズ向けセキュリティ機能
機能 | 内容 |
|---|---|
No training on your data | 顧客データをモデル学習に使用しないオプション |
Prompts & outputs as customer data | 入出力を顧客データとして扱う設定 |
データ保持設定 | キャッシュ・データ保持期間を設定可能 |
Azure AI Foundry連携 | データがAzure環境内に限定。SOC2・HIPAA対応 |
プライベートネットワーク | 専用キャパシティオプション |
医療データ(HIPAA)・金融データ・個人情報を扱う場合は、Azure AI Foundry経由のエンタープライズ契約を選択することで、より強固なデータ保護環境が確保できます。
APIキー管理の注意点
- APIキーをクライアントサイドのコードに含めない(フロントエンドJSに埋め込まない)
- GitHubなどのバージョン管理にAPIキーを含めない
- 環境変数(
.env)またはシークレット管理システム(AWS Secrets Manager等)で管理する
Mercury 2をおすすめする人 / おすすめしない人
おすすめする人
- AIエージェント開発者: マルチステップのエージェントループで速度がボトルネックになっており、改善したい
- リアルタイムアプリ開発者: 音声AIやチャットUIで即座の応答速度が競争優位につながる
- 大量バッチ処理を行うチーム: ドキュメント要約・分類・RAGを高速・低コストで大量処理したい
- OpenAIユーザーで移行コストを最小化したい方: API互換のため既存コードをほぼ流用可能
- 新しいLLMアーキテクチャを評価したいエンジニア・研究者: 拡散型LLMの商用実装を実際に試したい
おすすめしない人
- 日本語コンテンツ生成が主目的: 日本語品質が未確認のため、ClaudeやGPT-5が優位な可能性が高い
- マルチモーダルタスクが必要: 画像・音声処理には非対応のため選択肢にならない
- 複雑な多段階推論・深い分析が必要: Claude Sonnet/Opus・GPT-5クラスが適切
- 実運用実績・安定性を最優先する企業: 新アーキテクチャのため、予期しない挙動リスクがある
- 200K以上の超長文コンテキストが必要: Mercury 2は128Kが上限(Claudeは200K対応)
開発ロードマップ・アップデート履歴
時期 | 内容 |
|---|---|
2025年3月 | 初代Mercury Coderリリース(コード生成特化dLLM) |
2025年11月 | $50Mシードラウンド調達(Menlo Ventures主導) |
2026年2月24〜25日 | Mercury 2リリース(初の推論機能付きdLLM) |
2026年2月(同時期) | Mercury Edit 2リリース(コード編集特化・32Kコンテキスト) |
2026年3月4日 | OpenRouterでの週間トークン使用量4.69Bを記録 |
現時点では、マルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。拡散型LLMは急速に発展している分野であり、今後のアップデートに注目する価値があります。
よくある質問(FAQ)
Q. Mercury 2は日本語に対応していますか?
A. 公式では多言語対応を明示していますが、日本語品質の詳細は未公開です。英語のコーディング・推論タスクが得意とされており、日本語特化のClaudeやGPT-5oと比較した場合、日本語生成品質は劣る可能性があります。日本語コンテンツが主目的の場合は、実際に自社のユースケースで評価することを推奨します。
Q. 無料で試すことはできますか?
A. Inception Platformへの新規登録で1,000万トークン(10M)の無料枠が付与されます。詳細な有効期限・レート制限についてはInception公式サイトでご確認ください。OpenRouter経由でも一定の無料枠が利用できます。
Q. OpenAI APIのコードをそのまま移行できますか?
A. base_url を https://api.inceptionlabs.ai/v1 に変更し、APIキーをInceptionのものに切り替え、モデル名を mercury-2 にするだけでほとんどのケースで動作します。Tunable Reasoningを活用する場合は extra_body={"reasoning_effort": "medium"} を追加してください。
Q. エンタープライズ導入でのデータ保護は大丈夫ですか?
A. Azure AI Foundry経由であればSOC2・HIPAA対応で、データがAzure環境内に限定されます。直接API利用の場合は、デフォルトでデータが学習に使用される可能性があるため、Account Settingsでオプトアウト設定を行うか、エンタープライズ契約を検討してください。
Q. Mercury 2とMercury Edit 2はどう使い分けますか?
A. 汎用推論・AIエージェント・音声AI・RAGにはMercury 2(128Kコンテキスト)を、IDEでのコードオートコンプリートやNext Edit予測にはMercury Edit 2(32Kコンテキスト)を選ぶのが基本です。どちらも料金は同一($0.25/$0.75/M)です。
Q. Claude Codeの代わりに使えますか?
A. コード生成・補完の速度面ではMercury 2が有利ですが、複雑なコーディングタスクの品質や統合IDE環境の充実度ではClaude Codeが優位な場合があります。IDE連携での高速コード補完であればMercury Edit 2が直接の比較対象となります。
まとめ
Mercury 2は、世界最速の推論LLMという独自ポジションを確立した拡散型AIモデルです。Claude 4.5 HaikuやGPT-5 Miniと同等の品質を約10倍の速度で提供し、Tunable Reasoningによって用途に応じた推論深さの制御も可能です。
Mercury 2を選ぶべき場面:
- AIエージェントのレイテンシが課題になっているとき
- バッチ処理で高速・低コストを実現したいとき
- リアルタイム音声AIやストリーミングUIを構築するとき
- OpenAI互換のまま速度を大幅に向上させたいとき
他のモデルを選ぶべき場面:
- 日本語品質・マルチモーダル・複雑推論が重要なとき
- 生産環境での実績と安定性を最優先するとき
- 200Kを超える超長文コンテキストが必要なとき
生成AIツール全体の選び方については生成AIツールおすすめ比較、Claudeの詳細についてはClaudeとは?機能・料金・使い方をChatGPTと徹底比較もあわせて参照してください。
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

OpenRouterとは?機能・料金・Claude/GPT/Gemini比較・$1.3B評価額まで解説【2026年5月速報】
2026/06/10

iOS 27 Apple Intelligenceとは?Siri AI・Extensions(Claude/Gemini/ChatGPT/Grok選択)完全ガイド【WWDC 2026正式発表】
2026/05/17

Microsoft 365 Copilotエージェントとは?5種類の機能・Word/Excel/PowerPoint自律実行・料金を徹底解説
2026/06/10

Claude Fable 5とは?料金・性能・Mythos 5との違い・Opus 4.8比較を完全解説【2026年6月速報】
2026/06/10

Sunoとは?料金・機能・V5.5・著作権問題を完全解説【2026年最新】
2026/06/09

Claude 5とは?2026年4月時点の公式ステータス・リリース予測・Opus 4.7との違いを徹底解説
2026/04/18

