AIツール2026年6月更新

Mercury 2とは?世界最速の推論dLLM─仕組み・料金・Claude比較まで徹底解説【2026年最新】

公開日: 2026/06/03
Mercury 2とは?世界最速の推論dLLM─仕組み・料金・Claude比較まで徹底解説【2026年最新】

この記事のポイント

Mercury 2はInception Labsが開発した世界初の推論機能付き拡散型LLM(dLLM)。1,009トークン/秒という圧倒的な処理速度を誇り、APIは入力$0.25/M・出力$0.75/Mで利用可能。仕組み・料金・Claude/ChatGPTとの比較・向いている用途まで詳しく解説します。

Mercury 2は、Inception Labs(Inception AI, Inc.)が2026年2月に公開した世界初の推論機能付き拡散型大規模言語モデル(dLLM)です。公式に「世界最速の推論LLM」と位置づけられており、従来のLLMが1トークンずつ順番に出力するのとは異なり、複数トークンを並列に生成・精製する拡散型アーキテクチャにより1,009トークン/秒(NVIDIA Blackwell GPU環境)という処理速度を実現しています。

この記事では、Mercury 2の技術的な仕組み、料金・プラン、Claude・ChatGPTとの使い分け、セキュリティ上の注意点まで、導入判断に必要な情報を整理します。AIエージェントのレイテンシ削減・バッチ処理の高速化・リアルタイムUIの開発を検討しているエンジニアや、LLM選定を行っている企業担当者に特に参考になる内容です。

  • Mercury 2は拡散型(Diffusion)アーキテクチャで、従来LLMの約10倍の速度を実現
  • Claude 4.5 HaikuやGPT-5 Miniと同等の品質を、速度特化クラス最速で提供
  • 料金は入力$0.25/M・出力$0.75/M。新規アカウントは1,000万トークン無料
  • テキストのみ対応(マルチモーダル非対応)。複雑な多段階推論は大型モデルが優位

Mercury 2とは──拡散型LLMの世界最速推論モデル

Mercury 2は、2024年に設立されたスタートアップInception Labs(Inception AI, Inc.)が開発・提供している推論対応の拡散型大規模言語モデルです。CEOのStefano Ermon氏はStanford大学教授であり、MidJourneyやSoraの拡散技術の共同発明者として知られています。

Inception Labsが開発するMercury 2のAIテクノロジーイメージ

開発元:Inception Labsとは

項目

内容

正式社名

Inception AI, Inc.

設立

2024年、パロアルト(カリフォルニア)

CEO

Stefano Ermon(Stanford教授・拡散モデルの共同発明者)

共同創業者

Aditya Grover(UCLA)、Volodymyr Kuleshov(Cornell)

チーム出身

Stanford・UCLA・Cornell・Google DeepMind・Meta AI・OpenAI

総調達額

5,600万ドル($56M)

主要投資家

Menlo Ventures・Databricks Ventures・M12(Microsoft)・Snowflake Ventures

エンジェル投資家

Andrew Ng・Andrej Karpathy

企業評価額

約2億4,100万ドル

Andrew NgやAndrej Karpathyといった著名AI研究者がエンジェル投資家として支持している点は、技術的信頼性の面で重要なシグナルです。MicrosoftのM12やSnowflake Venturesの参加により、エンタープライズ市場への展開も見据えた資本構成になっています。

生成AIの全体像については生成AIとは?仕組み・種類・活用事例をわかりやすく解説も参考にしてください。


拡散型LLM(dLLM)とは?─従来のLLMとの根本的な違い

Mercury 2を正しく評価するために、拡散型アーキテクチャの基礎を理解しておく必要があります。

拡散型LLM(dLLM)の仕組みを表すディープラーニングのコンセプトイメージ

従来のLLM(自己回帰型)の仕組み

Claude・ChatGPT・Geminiなど一般的なLLMは自己回帰型(Autoregressive)モデルです。テキストを「タイプライター」のように左から右へ1トークンずつ順番に生成します。前のトークンが確定してからでないと次のトークンを計算できないため、GPUの並列演算能力を十分に活用できず、生成速度に本質的な上限があります。

Mercury 2(拡散型)の仕組み

Mercury 2はマスキングベースの離散拡散プロセスを採用しています。Inception公式の表現を借りると「タイプライターではなく、一気にドラフトを書いてから編集するエディター」のように動作します。

動作フローの概要:

  1. 全トークン位置を [MASK] でランダムに埋めた状態からスタート
  2. 複数ステップかけてMASKを解除しながら最終テキストを精製
  3. 出力の複雑さに応じてデノイジングステップ数を動的に調整
  4. NVIDIA BlackwellなどのGPUの並列演算能力を最大限に活用

技術的には、画像生成のStable DiffusionやMidJourneyと同じ「拡散」という概念を、テキストの離散トークンに応用した設計です。ただしGaussian noise(ガウスノイズ)ではなく離散トークン向けの破損プロセスを採用することで、学習安定性と推論精度を確保しています。

重要な注意点: 拡散型の特性上、「最初の1トークンが出力されるまでの時間(TTFT: Time to First Token)」は自己回帰型より長くなるケースがあります。「出力全体のスループット」と「初期応答速度」は別の指標であるため、評価時は用途に合わせて判断してください。


Mercury 2の速度・ベンチマーク性能

処理速度(2026年6月時点)

独立系AIベンチマーク機関Artificial Analysisが163モデルを対象に実施した速度評価で1位を記録(914トークン/秒を実測)。公式発表値はNVIDIA Blackwell GPU環境で1,009トークン/秒です。

モデル

速度(トークン/秒)

Mercury 2との差

Mercury 2

914〜1,009

Claude 4.5 Haiku

約89

約10〜11倍遅い

GPT-5 Mini

約71

約13〜14倍遅い

LLM中央値

約96

約10倍遅い

品質ベンチマーク(2026年6月時点・公式発表値)

ベンチマーク

Mercury 2スコア

評価内容

AIME 2025

91.1

競技数学・数学的推論

GPQA

73.6

大学院レベルの科学問題

IFBench

71.3

指示遵守能力

LiveCodeBench

67.3

リアルタイムコーディング

Tau2

52.9

エージェントタスク

SciCode

38.4

科学的計算

品質ポジションは「Claude 4.5 HaikuやGPT-5 Miniと同等水準」(速度特化の小〜中規模モデルクラス)です。Artificial Analysis Intelligence Indexでは163モデル中33位(速度は1位)という立ち位置で、「速度特化の最高品質」という独自ポジションを確立しています。

⚠️ AIME 2025の91.1などの数値は主にInception公式発表値です。Artificial Analysisが独立実測した速度(914 tok/s)を除き、他ベンチマーク結果の第三者再現検証は現時点では十分ではありません。実際の導入前に自社ユースケースでの検証を推奨します。


Mercury 2でできること

主な機能(2026年6月時点・公式確認済み)

✅ 対応している機能:

  • ネイティブツール使用(Function Calling)
  • スキーマ整合JSON出力
  • OpenAI API互換(ベースURLとAPIキーの変更だけで移行可能)
  • ストリーミング出力
  • reasoning_effort パラメータによる推論深さの4段階制御
  • 128Kトークンの長文コンテキスト処理

向いているユースケース

ユースケース

Mercury 2を選ぶ理由

AIエージェントループ

マルチツール連鎖推論のレイテンシを大幅削減

コーディング補助

コード補完・リファクタリング・大規模ファイル生成を高速処理

リアルタイム音声AI

低レイテンシが必須の音声インターフェースに適した速度

検索・RAGパイプライン

大量ドキュメントの並列処理・回答生成を高速化

バッチ文書処理

要約・分類を大量かつ並列に高速処理

ストリーミングUI

ユーザーが出力をリアルタイムで確認するプロダクト

AIエージェントの仕組みや活用方法についてはAIエージェントとは?仕組み・活用事例・主要ツールを解説でも詳しく解説しています。


Tunable Reasoning(推論レベルの使い分け)

Mercury 2の注目すべき独自機能が、reasoning_effort パラメータによる推論深さの動的制御です。タスクの複雑さに応じて4段階を切り替えることで、速度とコスト・品質のバランスを最適化できます。

Mercury 2のTunable Reasoning(推論レベル制御)を表す機械学習サーバーのイメージ

レベル

推奨ユースケース

特性

instant

テキスト分類・意図検知・オートコンプリート・ルーティング

最速・最低コスト

low

スキーマ抽出・要約・単一ツール呼び出し・RAG回答生成

高速・低コスト

medium

マルチツールエージェントループ・コード編集(1〜2ファイル)・プランニング

バランス型

high

競技数学・深いコード推論・複雑な条件分岐付きエージェントループ

最高品質

実装例(reasoning_effort の指定):

response = client.chat.completions.create(
    model="mercury-2",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"reasoning_effort": "medium"}  # instant/low/medium/high
)

同じモデルで「速度優先のルーティング処理」から「精度優先の数学推論」まで切り替えられるため、エージェントパイプライン内での使い分けが効率的です。


Mercury 2とMercury Edit 2の違い

2026年2月のリリースでは、Mercury 2と同時にMercury Edit 2も公開されています。混同しやすいため、用途と仕様を整理します。

項目

Mercury 2

Mercury Edit 2

目的

汎用推論・複雑タスク

コード編集特化・低レイテンシ

コンテキストウィンドウ

128K

32K

主な用途

エージェント・音声AI・RAG・バッチ処理

IDEオートコンプリート・Next Edit予測

料金(入力)

$0.25/M

$0.25/M

料金(出力)

$0.75/M

$0.75/M

一般的な推論・エージェントタスクにはMercury 2、IDE連携での高速コード補完にはMercury Edit 2が適しています。コンテキストウィンドウが32Kであることに注意が必要です(Mercury 2は128K)。


Mercury 2の料金・プラン(2026年6月時点)

Inception API(公式)料金

料金区分

価格

入力トークン

$0.25 / 100万トークン($0.00000025/トークン)

出力トークン

$0.75 / 100万トークン($0.00000075/トークン)

キャッシュ入力

$0.025 / 100万トークン

新規アカウント

1,000万トークン(10M)無料

公式料金ページ: https://www.inceptionlabs.ai/models(最新情報は公式で要確認)

実際のコスト試算(参考):

  • 入力100万トークン+出力100万トークン処理 → $1.00(約150円)
  • 1日あたり出力100万トークンのアプリ → $0.75/日(月額約$22.5 / 約3,375円)
  • 無料枠(10Mトークン)だけで → 出力換算で約1,333万文字分の処理が可能(目安)

他プロバイダー経由の料金

プロバイダー

料金

特徴

Inception API(直接)

$0.25/$0.75/M

公式。最も安定

OpenRouter

$0.25/$0.75/M

複数モデルを統一エンドポイントで管理可能

AWS Bedrock

別途見積もり

AWSエコシステム内での利用

Azure AI Foundry

別途エンタープライズ契約

SOC2・HIPAA対応・データがAzure内に限定

コスト比較に関する重要な注意点

「Mercury 2はClaude Haikuより6.5倍安い」という報道がある一方、「API単価では高い」という指摘も存在します。この乖離は以下の混同から生じています。

  • Inception公式の主張(「5倍速く、コストは大幅削減」): これは主に推論インフラコストの話です。速度が速い分、同じ処理をGPU時間で見ると短時間で完了するため、データセンター運用コストが削減できるという意味合いです
  • エンドユーザーが支払うAPI単価: 各モデルの公式料金ページで直接比較する必要があります

Claude・ChatGPTなどの料金は頻繁に変更されるため、最新情報は各公式料金ページで確認することを推奨します。Claude料金の詳細解説も参考にしてください。


Mercury 2の始め方(API利用手順)

アクセス方法の選択肢

方法

手順の概要

向いている人

Inception Platform(直接)

platform.inceptionlabs.ai でAPIキー取得

個人・スタートアップ

OpenRouter経由

OpenRouter登録後、モデルを選択

複数LLMを一元管理したい場合

AWS Bedrock

AWSマーケットプレイスからサブスクライブ

AWSユーザー

Azure AI Foundry

Microsoftと別途エンタープライズ契約

コンプライアンス重視の企業

OpenAI SDKを使った基本的な実装例

Mercury 2はOpenAI API互換のため、既存のOpenAIコードが最小限の変更で動作します。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.inceptionlabs.ai/v1",
    api_key="YOUR_INCEPTION_API_KEY"  # 環境変数での管理を推奨
)

response = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "user", "content": "次のコードをレビューしてください:..."}
    ],
    extra_body={"reasoning_effort": "medium"}  # instant/low/medium/high
)

print(response.choices[0].message.content)

既存OpenAIコードからの移行ポイント:

  1. base_urlhttps://api.inceptionlabs.ai/v1 に変更
  2. api_key → Inception PlatformのAPIキーに変更
  3. model"mercury-2" に変更
  4. (オプション)extra_body={"reasoning_effort": "medium"} を追加

Mercury 2 vs Claude vs ChatGPT 比較

主要比較表(2026年6月時点・公式情報基準)

比較項目

Mercury 2

Claude 4.5 Haiku

GPT-5 Mini

処理速度

914〜1,009 tok/s(最速)

約89 tok/s

約71 tok/s

品質ポジション

Haiku/Mini相当

軽量クラス

軽量クラス

コンテキストウィンドウ

128K

200K

128K

マルチモーダル

❌ テキストのみ

✅ 対応

✅ 対応

推論レベル制御

✅ 4段階(Tunable)

✅ 対応

✅ 対応

入力料金

$0.25/M

公式要確認

公式要確認

出力料金

$0.75/M

公式要確認

公式要確認

OpenAI API互換

日本語対応品質

未詳(英語が主)

✅ 高品質

✅ 高品質

エンタープライズ対応

✅(Azure/AWS経由)

商用実績

新規(実績少)

豊富

豊富

⚠️ Claude・ChatGPTの料金は変動が頻繁なため、最新情報は各公式ページでご確認ください。

用途別の選び分けガイド

Mercury 2を選ぶべき場合:

  • AIエージェントのレスポンス速度がボトルネックになっている
  • バッチ処理で大量テキストを高速・低コストで処理したい
  • リアルタイム音声AIや即座のUI応答が必要なプロダクトを開発している
  • 既存のOpenAIコードを最小変更で高速化したい
  • マルチモーダルが不要で純粋なテキスト処理のみの用途

Claudeを選ぶべき場合:

  • 複雑な多段階推論・深い論理的分析が必要
  • 画像・音声を含むマルチモーダルなタスクがある
  • 日本語の高品質な文章生成・校正・翻訳が主目的
  • 200K以上の超長文コンテキストが必要
  • 生産環境での豊富な実績・安定性を優先する

GPT-5 Miniを選ぶべき場合:

  • OpenAIエコシステム(DALL-E・Whisper等)との統合が必要
  • ChatGPT連携のプロダクト開発
  • マルチモーダルかつ軽量・低コストのモデルが必要

Claudeの機能・料金・特徴についてはClaudeとは?機能・料金・使い方をChatGPTと徹底比較で詳しく解説しています。

Mercury 2の処理速度ベンチマーク:高性能コンピューティングのイメージ(163モデル中1位を記録)

できないこと・制限事項

Mercury 2が苦手とする点を把握することが、失敗しない導入判断につながります。

制限事項

詳細

マルチモーダル非対応

テキスト入力のみ。画像・音声の入出力は不可

複雑な多段階推論

10ステップ以上の論理推論はClaude Opus/GPT-5相当が優位

一般知識の弱さ

Artificial AnalysisのGeneral Knowledge評価が低い(精度8.0%)

日本語対応品質が未詳

主に英語向け設計。日本語の生成品質は公式未公開

商用実績が少ない

自己回帰型に比べ新しいアーキテクチャのため、未知の失敗パターンの可能性

TTFT(初期応答速度)

拡散型の特性上、最初のトークンが出るまでの時間は自己回帰型より長いケースあり

ZDR(Vercel AI Gateway)

Vercel AI GatewayはMercury 2のZero Data Retentionに現状未対応

現時点でマルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。


セキュリティ・プライバシー(企業導入時の確認事項)

企業でMercury 2を導入する前に、データ利用ポリシーとセキュリティ体制を確認しておくことを強く推奨します。

データ利用ポリシー(2026年6月時点・公式確認済み)

  • デフォルト設定: ユーザーの入力・出力データがモデル改善に使用される可能性あり
  • オプトアウト方法: APIプラットフォームの「Account Settings」→「Improve the model for everyone」をOFFに設定
  • 問い合わせ先: privacy@inceptionlabs.ai / legal@inceptionlabs.ai
  • プライバシーポリシー: https://www.inceptionlabs.ai/docs/privacy-policy

個人情報・機密情報を含む業務データを処理する場合は、必ずオプトアウト設定を行うか、エンタープライズ契約を検討してください。

エンタープライズ向けセキュリティ機能

機能

内容

No training on your data

顧客データをモデル学習に使用しないオプション

Prompts & outputs as customer data

入出力を顧客データとして扱う設定

データ保持設定

キャッシュ・データ保持期間を設定可能

Azure AI Foundry連携

データがAzure環境内に限定。SOC2・HIPAA対応

プライベートネットワーク

専用キャパシティオプション

医療データ(HIPAA)・金融データ・個人情報を扱う場合は、Azure AI Foundry経由のエンタープライズ契約を選択することで、より強固なデータ保護環境が確保できます。

APIキー管理の注意点

  • APIキーをクライアントサイドのコードに含めない(フロントエンドJSに埋め込まない)
  • GitHubなどのバージョン管理にAPIキーを含めない
  • 環境変数(.env)またはシークレット管理システム(AWS Secrets Manager等)で管理する

Mercury 2をおすすめする人 / おすすめしない人

おすすめする人

  • AIエージェント開発者: マルチステップのエージェントループで速度がボトルネックになっており、改善したい
  • リアルタイムアプリ開発者: 音声AIやチャットUIで即座の応答速度が競争優位につながる
  • 大量バッチ処理を行うチーム: ドキュメント要約・分類・RAGを高速・低コストで大量処理したい
  • OpenAIユーザーで移行コストを最小化したい方: API互換のため既存コードをほぼ流用可能
  • 新しいLLMアーキテクチャを評価したいエンジニア・研究者: 拡散型LLMの商用実装を実際に試したい

おすすめしない人

  • 日本語コンテンツ生成が主目的: 日本語品質が未確認のため、ClaudeやGPT-5が優位な可能性が高い
  • マルチモーダルタスクが必要: 画像・音声処理には非対応のため選択肢にならない
  • 複雑な多段階推論・深い分析が必要: Claude Sonnet/Opus・GPT-5クラスが適切
  • 実運用実績・安定性を最優先する企業: 新アーキテクチャのため、予期しない挙動リスクがある
  • 200K以上の超長文コンテキストが必要: Mercury 2は128Kが上限(Claudeは200K対応)

開発ロードマップ・アップデート履歴

時期

内容

2025年3月

初代Mercury Coderリリース(コード生成特化dLLM)

2025年11月

$50Mシードラウンド調達(Menlo Ventures主導)

2026年2月24〜25日

Mercury 2リリース(初の推論機能付きdLLM)

2026年2月(同時期)

Mercury Edit 2リリース(コード編集特化・32Kコンテキスト)

2026年3月4日

OpenRouterでの週間トークン使用量4.69Bを記録

現時点では、マルチモーダル対応・より大型の推論モデル・日本語特化チューニングについての公式発表はありません。拡散型LLMは急速に発展している分野であり、今後のアップデートに注目する価値があります。


よくある質問(FAQ)

Q. Mercury 2は日本語に対応していますか?

A. 公式では多言語対応を明示していますが、日本語品質の詳細は未公開です。英語のコーディング・推論タスクが得意とされており、日本語特化のClaudeやGPT-5oと比較した場合、日本語生成品質は劣る可能性があります。日本語コンテンツが主目的の場合は、実際に自社のユースケースで評価することを推奨します。

Q. 無料で試すことはできますか?

A. Inception Platformへの新規登録で1,000万トークン(10M)の無料枠が付与されます。詳細な有効期限・レート制限についてはInception公式サイトでご確認ください。OpenRouter経由でも一定の無料枠が利用できます。

Q. OpenAI APIのコードをそのまま移行できますか?

A. base_urlhttps://api.inceptionlabs.ai/v1 に変更し、APIキーをInceptionのものに切り替え、モデル名を mercury-2 にするだけでほとんどのケースで動作します。Tunable Reasoningを活用する場合は extra_body={"reasoning_effort": "medium"} を追加してください。

Q. エンタープライズ導入でのデータ保護は大丈夫ですか?

A. Azure AI Foundry経由であればSOC2・HIPAA対応で、データがAzure環境内に限定されます。直接API利用の場合は、デフォルトでデータが学習に使用される可能性があるため、Account Settingsでオプトアウト設定を行うか、エンタープライズ契約を検討してください。

Q. Mercury 2とMercury Edit 2はどう使い分けますか?

A. 汎用推論・AIエージェント・音声AI・RAGにはMercury 2(128Kコンテキスト)を、IDEでのコードオートコンプリートやNext Edit予測にはMercury Edit 2(32Kコンテキスト)を選ぶのが基本です。どちらも料金は同一($0.25/$0.75/M)です。

Q. Claude Codeの代わりに使えますか?

A. コード生成・補完の速度面ではMercury 2が有利ですが、複雑なコーディングタスクの品質や統合IDE環境の充実度ではClaude Codeが優位な場合があります。IDE連携での高速コード補完であればMercury Edit 2が直接の比較対象となります。


まとめ

Mercury 2は、世界最速の推論LLMという独自ポジションを確立した拡散型AIモデルです。Claude 4.5 HaikuやGPT-5 Miniと同等の品質を約10倍の速度で提供し、Tunable Reasoningによって用途に応じた推論深さの制御も可能です。

Mercury 2を選ぶべき場面:

  • AIエージェントのレイテンシが課題になっているとき
  • バッチ処理で高速・低コストを実現したいとき
  • リアルタイム音声AIやストリーミングUIを構築するとき
  • OpenAI互換のまま速度を大幅に向上させたいとき

他のモデルを選ぶべき場面:

  • 日本語品質・マルチモーダル・複雑推論が重要なとき
  • 生産環境での実績と安定性を最優先するとき
  • 200Kを超える超長文コンテキストが必要なとき

生成AIツール全体の選び方については生成AIツールおすすめ比較、Claudeの詳細についてはClaudeとは?機能・料金・使い方をChatGPTと徹底比較もあわせて参照してください。

AIツールの導入でお困りですか?

お客様のビジネスに最適なAIツールをご提案します。まずは無料相談から。

この記事の著者

AI革命

AI革命

編集部

AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。

AI活用ならAI革命にお任せ。サービスを見てみる
AI Revolution Growth Arrow

AIでビジネスを革新しませんか?

あなたのビジネスにAIがどのような価値をもたらすかをご提案いたします。