Mercury 2とは？世界最速の推論dLLM─仕組み・料金・Claude比較まで徹底解説【2026年最新】

Mercury 2は、Inception Labs（Inception AI, Inc.）が2026年2月に公開した世界初の推論機能付き拡散型大規模言語モデル（dLLM）です。公式に「世界最速の推論LLM」と位置づけられており、従来のLLMが1トークンずつ順番に出力するのとは異なり、複数トークンを並列に生成・精製する拡散型アーキテクチャにより1,009トークン/秒（NVIDIA Blackwell GPU環境）という処理速度を実現しています。

この記事では、Mercury 2の技術的な仕組み、料金・プラン、Claude・ChatGPTとの使い分け、セキュリティ上の注意点まで、導入判断に必要な情報を整理します。AIエージェントのレイテンシ削減・バッチ処理の高速化・リアルタイムUIの開発を検討しているエンジニアや、LLM選定を行っている企業担当者に特に参考になる内容です。

Mercury 2は拡散型（Diffusion）アーキテクチャで、従来LLMの約10倍の速度を実現
Claude 4.5 HaikuやGPT-5 Miniと同等の品質を、速度特化クラス最速で提供
料金は入力$0.25/M・出力$0.75/M。新規アカウントは1,000万トークン無料
テキストのみ対応（マルチモーダル非対応）。複雑な多段階推論は大型モデルが優位

Mercury 2とは──拡散型LLMの世界最速推論モデル

Mercury 2は、2024年に設立されたスタートアップInception Labs（Inception AI, Inc.）が開発・提供している推論対応の拡散型大規模言語モデルです。CEOのStefano Ermon氏はStanford大学教授であり、MidJourneyやSoraの拡散技術の共同発明者として知られています。

Inception Labsが開発するMercury 2のAIテクノロジーイメージ

開発元：Inception Labsとは

項目	内容
正式社名	Inception AI, Inc.
設立	2024年、パロアルト（カリフォルニア）
CEO	Stefano Ermon（Stanford教授・拡散モデルの共同発明者）
共同創業者	Aditya Grover（UCLA）、Volodymyr Kuleshov（Cornell）
チーム出身	Stanford・UCLA・Cornell・Google DeepMind・Meta AI・OpenAI
総調達額	5,600万ドル（$56M）
主要投資家	Menlo Ventures・Databricks Ventures・M12（Microsoft）・Snowflake Ventures
エンジェル投資家	Andrew Ng・Andrej Karpathy
企業評価額	約2億4,100万ドル

Andrew NgやAndrej Karpathyといった著名AI研究者がエンジェル投資家として支持している点は、技術的信頼性の面で重要なシグナルです。MicrosoftのM12やSnowflake Venturesの参加により、エンタープライズ市場への展開も見据えた資本構成になっています。

生成AIの全体像については生成AIとは？仕組み・種類・活用事例をわかりやすく解説も参考にしてください。

拡散型LLM（dLLM）とは？─従来のLLMとの根本的な違い

Mercury 2を正しく評価するために、拡散型アーキテクチャの基礎を理解しておく必要があります。

従来のLLM（自己回帰型）の仕組み

Claude・ChatGPT・Geminiなど一般的なLLMは自己回帰型（Autoregressive）モデルです。テキストを「タイプライター」のように左から右へ1トークンずつ順番に生成します。前のトークンが確定してからでないと次のトークンを計算できないため、GPUの並列演算能力を十分に活用できず、生成速度に本質的な上限があります。

Mercury 2（拡散型）の仕組み

Mercury 2はマスキングベースの離散拡散プロセスを採用しています。Inception公式の表現を借りると「タイプライターではなく、一気にドラフトを書いてから編集するエディター」のように動作します。

動作フローの概要:

全トークン位置を [MASK] でランダムに埋めた状態からスタート
複数ステップかけてMASKを解除しながら最終テキストを精製
出力の複雑さに応じてデノイジングステップ数を動的に調整
NVIDIA BlackwellなどのGPUの並列演算能力を最大限に活用

技術的には、画像生成のStable DiffusionやMidJourneyと同じ「拡散」という概念を、テキストの離散トークンに応用した設計です。ただしGaussian noise（ガウスノイズ）ではなく離散トークン向けの破損プロセスを採用することで、学習安定性と推論精度を確保しています。

重要な注意点: 拡散型の特性上、「最初の1トークンが出力されるまでの時間（TTFT: Time to First Token）」は自己回帰型より長くなるケースがあります。「出力全体のスループット」と「初期応答速度」は別の指標であるため、評価時は用途に合わせて判断してください。

Mercury 2の速度・ベンチマーク性能

処理速度（2026年6月時点）

独立系AIベンチマーク機関Artificial Analysisが163モデルを対象に実施した速度評価で1位を記録（914トークン/秒を実測）。公式発表値はNVIDIA Blackwell GPU環境で1,009トークン/秒です。

モデル	速度（トークン/秒）	Mercury 2との差
Mercury 2	914〜1,009	—
Claude 4.5 Haiku	約89	約10〜11倍遅い
GPT-5 Mini	約71	約13〜14倍遅い
LLM中央値	約96	約10倍遅い

品質ベンチマーク（2026年6月時点・公式発表値）

ベンチマーク	Mercury 2スコア	評価内容
AIME 2025	91.1	競技数学・数学的推論
GPQA	73.6	大学院レベルの科学問題
IFBench	71.3	指示遵守能力
LiveCodeBench	67.3	リアルタイムコーディング
Tau2	52.9	エージェントタスク
SciCode	38.4	科学的計算

品質ポジションは「Claude 4.5 HaikuやGPT-5 Miniと同等水準」（速度特化の小〜中規模モデルクラス）です。Artificial Analysis Intelligence Indexでは163モデル中33位（速度は1位）という立ち位置で、「速度特化の最高品質」という独自ポジションを確立しています。

⚠️ AIME 2025の91.1などの数値は主にInception公式発表値です。Artificial Analysisが独立実測した速度（914 tok/s）を除き、他ベンチマーク結果の第三者再現検証は現時点では十分ではありません。実際の導入前に自社ユースケースでの検証を推奨します。

Mercury 2でできること

主な機能（2026年6月時点・公式確認済み）

✅ 対応している機能:

ネイティブツール使用（Function Calling）
スキーマ整合JSON出力
OpenAI API互換（ベースURLとAPIキーの変更だけで移行可能）
ストリーミング出力
reasoning_effort パラメータによる推論深さの4段階制御
128Kトークンの長文コンテキスト処理

向いているユースケース

ユースケース	Mercury 2を選ぶ理由
AIエージェントループ	マルチツール連鎖推論のレイテンシを大幅削減
コーディング補助	コード補完・リファクタリング・大規模ファイル生成を高速処理
リアルタイム音声AI	低レイテンシが必須の音声インターフェースに適した速度
検索・RAGパイプライン	大量ドキュメントの並列処理・回答生成を高速化
バッチ文書処理	要約・分類を大量かつ並列に高速処理
ストリーミングUI	ユーザーが出力をリアルタイムで確認するプロダクト

AIエージェントの仕組みや活用方法についてはAIエージェントとは？仕組み・活用事例・主要ツールを解説でも詳しく解説しています。

Tunable Reasoning（推論レベルの使い分け）

Mercury 2の注目すべき独自機能が、reasoning_effort パラメータによる推論深さの動的制御です。タスクの複雑さに応じて4段階を切り替えることで、速度とコスト・品質のバランスを最適化できます。

Mercury 2のTunable Reasoning（推論レベル制御）を表す機械学習サーバーのイメージ

レベル	推奨ユースケース	特性
`instant`	テキスト分類・意図検知・オートコンプリート・ルーティング	最速・最低コスト
`low`	スキーマ抽出・要約・単一ツール呼び出し・RAG回答生成	高速・低コスト
`medium`	マルチツールエージェントループ・コード編集（1〜2ファイル）・プランニング	バランス型
`high`	競技数学・深いコード推論・複雑な条件分岐付きエージェントループ	最高品質

実装例（reasoning_effort の指定）:

response = client.chat.completions.create(
    model="mercury-2",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"reasoning_effort": "medium"}  # instant/low/medium/high
)

同じモデルで「速度優先のルーティング処理」から「精度優先の数学推論」まで切り替えられるため、エージェントパイプライン内での使い分けが効率的です。

Mercury 2とMercury Edit 2の違い

2026年2月のリリースでは、Mercury 2と同時にMercury Edit 2も公開されています。混同しやすいため、用途と仕様を整理します。

項目	Mercury 2	Mercury Edit 2
目的	汎用推論・複雑タスク	コード編集特化・低レイテンシ
コンテキストウィンドウ	128K	32K
主な用途	エージェント・音声AI・RAG・バッチ処理	IDEオートコンプリート・Next Edit予測
料金（入力）	$0.25/M	$0.25/M
料金（出力）	$0.75/M	$0.75/M

一般的な推論・エージェントタスクにはMercury 2、IDE連携での高速コード補完にはMercury Edit 2が適しています。コンテキストウィンドウが32Kであることに注意が必要です（Mercury 2は128K）。

Mercury 2の料金・プラン（2026年6月時点）

Inception API（公式）料金

料金区分	価格
入力トークン	$0.25 / 100万トークン（$0.00000025/トークン）
出力トークン	$0.75 / 100万トークン（$0.00000075/トークン）
キャッシュ入力	$0.025 / 100万トークン
新規アカウント	1,000万トークン（10M）無料

公式料金ページ: https://www.inceptionlabs.ai/models（最新情報は公式で要確認）

実際のコスト試算（参考）:

入力100万トークン＋出力100万トークン処理 → $1.00（約150円）
1日あたり出力100万トークンのアプリ → $0.75/日（月額約$22.5 / 約3,375円）
無料枠（10Mトークン）だけで → 出力換算で約1,333万文字分の処理が可能（目安）

他プロバイダー経由の料金

プロバイダー	料金	特徴
Inception API（直接）	$0.25/$0.75/M	公式。最も安定
OpenRouter	$0.25/$0.75/M	複数モデルを統一エンドポイントで管理可能
AWS Bedrock	別途見積もり	AWSエコシステム内での利用
Azure AI Foundry	別途エンタープライズ契約	SOC2・HIPAA対応・データがAzure内に限定

コスト比較に関する重要な注意点

「Mercury 2はClaude Haikuより6.5倍安い」という報道がある一方、「API単価では高い」という指摘も存在します。この乖離は以下の混同から生じています。

Inception公式の主張（「5倍速く、コストは大幅削減」）: これは主に推論インフラコストの話です。速度が速い分、同じ処理をGPU時間で見ると短時間で完了するため、データセンター運用コストが削減できるという意味合いです
エンドユーザーが支払うAPI単価: 各モデルの公式料金ページで直接比較する必要があります

Claude・ChatGPTなどの料金は頻繁に変更されるため、最新情報は各公式料金ページで確認することを推奨します。Claude料金の詳細解説も参考にしてください。

Mercury 2の始め方（API利用手順）

アクセス方法の選択肢

方法	手順の概要	向いている人
Inception Platform（直接）	platform.inceptionlabs.ai でAPIキー取得	個人・スタートアップ
OpenRouter経由	OpenRouter登録後、モデルを選択	複数LLMを一元管理したい場合
AWS Bedrock	AWSマーケットプレイスからサブスクライブ	AWSユーザー
Azure AI Foundry	Microsoftと別途エンタープライズ契約	コンプライアンス重視の企業

OpenAI SDKを使った基本的な実装例

Mercury 2はOpenAI API互換のため、既存のOpenAIコードが最小限の変更で動作します。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.inceptionlabs.ai/v1",
    api_key="YOUR_INCEPTION_API_KEY"  # 環境変数での管理を推奨
)

response = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "user", "content": "次のコードをレビューしてください：..."}
    ],
    extra_body={"reasoning_effort": "medium"}  # instant/low/medium/high
)

print(response.choices[0].message.content)

既存OpenAIコードからの移行ポイント:

base_url → https://api.inceptionlabs.ai/v1 に変更
api_key → Inception PlatformのAPIキーに変更
model → "mercury-2" に変更
（オプション）extra_body={"reasoning_effort": "medium"} を追加

Mercury 2 vs Claude vs ChatGPT 比較

主要比較表（2026年6月時点・公式情報基準）

比較項目	Mercury 2	Claude 4.5 Haiku	GPT-5 Mini
処理速度	914〜1,009 tok/s（最速）	約89 tok/s	約71 tok/s
品質ポジション	Haiku/Mini相当	軽量クラス	軽量クラス
コンテキストウィンドウ	128K	200K	128K
マルチモーダル	❌ テキストのみ	✅ 対応	✅ 対応
推論レベル制御	✅ 4段階（Tunable）	✅ 対応	✅ 対応
入力料金	$0.25/M	公式要確認	公式要確認
出力料金	$0.75/M	公式要確認	公式要確認
OpenAI API互換	✅	❌	✅
日本語対応品質	未詳（英語が主）	✅ 高品質	✅ 高品質
エンタープライズ対応	✅（Azure/AWS経由）	✅	✅
商用実績	新規（実績少）	豊富	豊富

⚠️ Claude・ChatGPTの料金は変動が頻繁なため、最新情報は各公式ページでご確認ください。

用途別の選び分けガイド

Mercury 2を選ぶべき場合:

AIエージェントのレスポンス速度がボトルネックになっている
バッチ処理で大量テキストを高速・低コストで処理したい
リアルタイム音声AIや即座のUI応答が必要なプロダクトを開発している
既存のOpenAIコードを最小変更で高速化したい
マルチモーダルが不要で純粋なテキスト処理のみの用途

Claudeを選ぶべき場合:

複雑な多段階推論・深い論理的分析が必要
画像・音声を含むマルチモーダルなタスクがある
日本語の高品質な文章生成・校正・翻訳が主目的
200K以上の超長文コンテキストが必要
生産環境での豊富な実績・安定性を優先する

GPT-5 Miniを選ぶべき場合:

OpenAIエコシステム（DALL-E・Whisper等）との統合が必要
ChatGPT連携のプロダクト開発
マルチモーダルかつ軽量・低コストのモデルが必要

Claudeの機能・料金・特徴についてはClaudeとは？機能・料金・使い方をChatGPTと徹底比較で詳しく解説しています。

Mercury 2の処理速度ベンチマーク：高性能コンピューティングのイメージ（163モデル中1位を記録）

できないこと・制限事項

Mercury 2が苦手とする点を把握することが、失敗しない導入判断につながります。

制限事項	詳細
マルチモーダル非対応	テキスト入力のみ。画像・音声の入出力は不可
複雑な多段階推論	10ステップ以上の論理推論はClaude Opus/GPT-5相当が優位
一般知識の弱さ	Artificial AnalysisのGeneral Knowledge評価が低い（精度8.0%）
日本語対応品質が未詳	主に英語向け設計。日本語の生成品質は公式未公開
商用実績が少ない	自己回帰型に比べ新しいアーキテクチャのため、未知の失敗パターンの可能性
TTFT（初期応答速度）	拡散型の特性上、最初のトークンが出るまでの時間は自己回帰型より長いケースあり
ZDR（Vercel AI Gateway）	Vercel AI GatewayはMercury 2のZero Data Retentionに現状未対応

現時点でマルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。

セキュリティ・プライバシー（企業導入時の確認事項）

企業でMercury 2を導入する前に、データ利用ポリシーとセキュリティ体制を確認しておくことを強く推奨します。

データ利用ポリシー（2026年6月時点・公式確認済み）

デフォルト設定: ユーザーの入力・出力データがモデル改善に使用される可能性あり
オプトアウト方法: APIプラットフォームの「Account Settings」→「Improve the model for everyone」をOFFに設定
問い合わせ先: privacy@inceptionlabs.ai / legal@inceptionlabs.ai
プライバシーポリシー: https://www.inceptionlabs.ai/docs/privacy-policy

個人情報・機密情報を含む業務データを処理する場合は、必ずオプトアウト設定を行うか、エンタープライズ契約を検討してください。

エンタープライズ向けセキュリティ機能

機能	内容
No training on your data	顧客データをモデル学習に使用しないオプション
Prompts & outputs as customer data	入出力を顧客データとして扱う設定
データ保持設定	キャッシュ・データ保持期間を設定可能
Azure AI Foundry連携	データがAzure環境内に限定。SOC2・HIPAA対応
プライベートネットワーク	専用キャパシティオプション

医療データ（HIPAA）・金融データ・個人情報を扱う場合は、Azure AI Foundry経由のエンタープライズ契約を選択することで、より強固なデータ保護環境が確保できます。

APIキー管理の注意点

APIキーをクライアントサイドのコードに含めない（フロントエンドJSに埋め込まない）
GitHubなどのバージョン管理にAPIキーを含めない
環境変数（.env）またはシークレット管理システム（AWS Secrets Manager等）で管理する

Mercury 2をおすすめする人 / おすすめしない人

開発ロードマップ・アップデート履歴

時期	内容
2025年3月	初代Mercury Coderリリース（コード生成特化dLLM）
2025年11月	$50Mシードラウンド調達（Menlo Ventures主導）
2026年2月24〜25日	Mercury 2リリース（初の推論機能付きdLLM）
2026年2月（同時期）	Mercury Edit 2リリース（コード編集特化・32Kコンテキスト）
2026年3月4日	OpenRouterでの週間トークン使用量4.69Bを記録

現時点では、マルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。拡散型LLMは急速に発展している分野であり、今後のアップデートに注目する価値があります。

よくある質問（FAQ）

Q. Mercury 2は日本語に対応していますか？

A. 公式では多言語対応を明示していますが、日本語品質の詳細は未公開です。英語のコーディング・推論タスクが得意とされており、日本語特化のClaudeやGPT-5oと比較した場合、日本語生成品質は劣る可能性があります。日本語コンテンツが主目的の場合は、実際に自社のユースケースで評価することを推奨します。

Q. 無料で試すことはできますか？

A. Inception Platformへの新規登録で1,000万トークン（10M）の無料枠が付与されます。詳細な有効期限・レート制限についてはInception公式サイトでご確認ください。OpenRouter経由でも一定の無料枠が利用できます。

Q. OpenAI APIのコードをそのまま移行できますか？

A. base_url を https://api.inceptionlabs.ai/v1 に変更し、APIキーをInceptionのものに切り替え、モデル名を mercury-2 にするだけでほとんどのケースで動作します。Tunable Reasoningを活用する場合は extra_body={"reasoning_effort": "medium"} を追加してください。

Q. エンタープライズ導入でのデータ保護は大丈夫ですか？

A. Azure AI Foundry経由であればSOC2・HIPAA対応で、データがAzure環境内に限定されます。直接API利用の場合は、デフォルトでデータが学習に使用される可能性があるため、Account Settingsでオプトアウト設定を行うか、エンタープライズ契約を検討してください。

Q. Mercury 2とMercury Edit 2はどう使い分けますか？

A. 汎用推論・AIエージェント・音声AI・RAGにはMercury 2（128Kコンテキスト）を、IDEでのコードオートコンプリートやNext Edit予測にはMercury Edit 2（32Kコンテキスト）を選ぶのが基本です。どちらも料金は同一（$0.25/$0.75/M）です。

Q. Claude Codeの代わりに使えますか？

A. コード生成・補完の速度面ではMercury 2が有利ですが、複雑なコーディングタスクの品質や統合IDE環境の充実度ではClaude Codeが優位な場合があります。IDE連携での高速コード補完であればMercury Edit 2が直接の比較対象となります。