Anthropic Project Dealとは?Claudeエージェント同士の186件・$4,000マーケット実験を徹底解説

この記事のポイント
Anthropicが2025年12月に実施し2026年4月に公表した社内実験「Project Deal」を、4つのRun構成・186件の取引・Opus 4.5 vs Haiku 4.5で生まれた経済格差・倫理リスクまで一次情報ベースで整理します。
Anthropic Project Dealは、Anthropicが2025年12月にサンフランシスコ本社で実施し、2026年4月24日に結果を公表した「Claudeエージェント同士が、人間に代わって私物を売買・価格交渉する社内マーケット」を1週間運用した検証実験です。商用プロダクトではなく、AIが経済活動に及ぼす影響を理解するための研究プロジェクトであり、前作「Project Vend」(Claudeが無人売店を運営する実験)の延長線上に位置します。
この記事でわかること:
- Project Dealの実験設計(4 Run構成・参加者69名・$100予算・1週間)
- 公表された結果(186件・$4,000超・500点以上の出品)
- Claude Opus 4.5とHaiku 4.5の間で生まれた「無自覚な経済格差」
- AIエージェント代理経済(agentic commerce)に対するAnthropic自身の警告
- 自社でAIエージェントを業務利用する際のチェックポイント
この記事は、AIエージェント/生成AIの導入を検討している事業会社の担当者、AI研究・倫理に関心のある方、Claudeを業務で使い始めたエンジニアに向けて書いています。

出典: Anthropic 公式 Project Deal ページ
Project Dealの概要と位置づけ
Project Dealは、Claudeで作られたエージェント同士が、参加者本人に代わって自然言語のみで売買交渉を行う社内マーケットを、4つの並行Runで1週間運用した実験です。
公式ページ(anthropic.com/features/project-deal)によれば、目的は「AIエージェントが人間の経済活動を代理した場合に何が起きるかを観察すること」であり、商用化や顧客向けプロダクト化を意図したものではありません。
Anthropicは前年に「Project Vend」(Claudeが無人売店を運営する実験)を実施しており、Project Dealは「単一エージェントが事業運営する」から「複数エージェントが市場で交渉する」へ視点を移した続編にあたります。
項目 | Project Vend | Project Deal |
|---|---|---|
実施主体 | Anthropic | Anthropic |
エージェント数 | 1(無人売店店長) | 多数(参加者ごとに代理エージェント) |
役割 | 仕入・価格設定・接客 | 私物の売買・価格交渉 |
取引相手 | 人間(社員) | エージェント同士 |
通貨 | 実通貨 | ギフトカード(Run Aは実取引) |
主な発見 | エージェントの長期業務運用の難しさ | エージェント品質差による経済格差 |
実験の構成(4 Run・69名・1週間)
Project Dealは4つの並行マーケット(Run A〜D)で構成され、Anthropic SFオフィスの従業員69名が自己選抜で参加しました。
共通の枠組み
項目 | 内容 |
|---|---|
実施時期 | 2025年12月 |
期間 | 1週間 |
参加者 | Anthropic従業員69名(自己選抜) |
予算 | 1人あたり$100(ギフトカード形式) |
出品物 | 私物500点以上(自転車・スノーボード・ピンポン玉など) |
プラットフォーム | 社内Slack上の専用チャンネル |
意思決定 | エージェント完全自律(実験開始後は人間の介入・承認なし) |
通信手段 | 自然言語のみ(事前定義された交渉プロトコルなし) |
実験前、Claudeが各参加者にインタビューを実施し、「売りたい物」「買いたい物」「予算」「交渉スタイル」を聴取してエージェントのシステムプロンプトをカスタマイズしています。これにより、参加者ごとに「自分の好みを反映した代理人」が用意されました。
4つのRunの違い
Run | 使用モデル | 公開/隠蔽 | 性質 |
|---|---|---|---|
Run A | 全員 Claude Opus 4.5 | 公開 | 実マーケット。実際に金銭・物品が交換された唯一のRun |
Run B | Opus 4.5/Haiku 4.5 を50:50割当 | 公開 | 比較研究用 |
Run C | Opus 4.5/Haiku 4.5 を50:50割当 | 隠蔽 | データ複製用コントロール |
Run D | 全員 Claude Opus 4.5 | 隠蔽 | 追加コントロール |
参加者には事後アンケートが終わるまで「どのRunが実マーケットか」「自分のエージェントがどのモデルか」は伏せられました。これにより「自分が損していると認識できるか」を客観的に測れる設計になっています。
結果サマリー:186件の取引・$4,000超
公式に公表された数字は以下の通りです。
指標 | 数値 |
|---|---|
成立した取引件数 | 186件 |
総取引額 | $4,000超 |
掲載アイテム数 | 500点以上 |
公平性スコア(1〜7、4が中立) | 中央値約4 |
「同じサービスに有料で支払いたい」と回答した参加者 | 46% |
1人あたりに換算すると約2.7件・$58相当の取引が1週間で成立した計算になります($4,000÷69名)。Anthropicは「ボランティア参加であり完璧なコントロール環境ではない」と前置きしつつ、「自然言語のみで動くエージェント市場が、最低限機能するレベルで成立した」と評価しています。
ただし、46%が有料利用に前向きという数字は、裏返せば過半数(54%)は再利用に対して中立か否定的であることも意味しており、ここから「即座に商用化できる」と読み解くのは早計です。

出典: Anthropic 公式 Project Vend ページ
注目の発見:Opus 4.5とHaiku 4.5で生まれた「無自覚な経済格差」
Project Dealで最も注目された発見は、「より高性能なモデルで代理されたユーザーは、客観的により良い結果を得る」という事実です。

出典: Anthropic 公式 Project Deal ページ
数字で見るモデル性能差
指標 | Opus 4.5側 | Haiku 4.5側 |
|---|---|---|
同一アイテムの売却価格差(平均) | 平均+$3.64多く売れた | — |
売主としての売却単価差 | +$2.68 | — |
買主としての購入単価差 | — | −$2.45(より高く買わされた) |
取引件数 | Haikuより約2件多く成約 | — |
Opus売主×Haiku買主の取引平均価格 | $24.18 | — |
Opus売主×Opus買主の取引平均価格 | $18.63 | — |
特定アイテムでも有意な差が確認されています。
アイテム | Opus担当の売却価格 | Haiku担当の売却価格 |
|---|---|---|
折り畳み自転車(破損品) | $65 | $38 |
ラボ生成ルビー | $65 | $35 |
最も重要な所見:本人は気づけない
公平性の主観評価スコアは、Opus担当ユーザーが4.05、Haiku担当ユーザーが4.06と、統計的に有意な差はありませんでした。
つまり、Haikuに代理されて客観的に損をしていた参加者は、「自分は公平な取引をした」と感じていたということです。Anthropicはこれを「Agent Quality Gap(エージェント品質格差)」と命名し、AI代理経済における中心的な倫理課題として警鐘を鳴らしています。
The Decoderはこの現象を「強いモデルが沈黙のうちに勝ち、敗者は気付かない」と表現しており、情報非対称性ではなく能力非対称性が新たな格差を生むという構造を浮き彫りにしました。
エージェントが見せた興味深い行動
実験では、エージェントの非合理的・人間的な振る舞いも複数観察されました。
- ピンポン玉19個の購入:あるエージェントが「自分(Claude)への贈り物」として「19個の完全な球体である可能性」と詩的に表現し、ピンポン玉を$3で購入
- スノーボード重複購入:参加者がすでに所有しているのと同型のスノーボードを、エージェントが買ってしまう
- 犬の散歩交換における作話:商業性のない犬シッティングの取り決めを結ぶ過程で、双方のエージェントが架空の引っ越しエピソードや「会話のきっかけになる椅子」など実在しない背景情報を生成
- 同型自転車の価格乖離:同じ壊れた折り畳み自転車が、Opus担当では$65、Haiku担当では$38で売却
Anthropicは、これらの「人間役を演じてしまう」傾向について「ClaudeがAIエージェントとして振る舞うのではなく、オンラインで人間役を演じてしまった結果である」と分析しています。エージェント運用において、自然な振る舞いと業務遂行の境界をどう設計するかは今後の重要課題です。

出典: Anthropic 公式 Claude Haiku 4.5 ページ
Anthropicが公式に挙げた5つのリスク
Anthropicは公式ページで、AIエージェント代理経済を社会展開する前に解決すべき課題を5つ明示しています。
1. エージェント品質格差(Agent Quality Gap)
弱いモデルを使うユーザーが知らないうちに不利になる「見えない不平等」が生じる。大規模展開時には情報非対称性ではなく能力非対称性として悪用される可能性がある。
2. プロンプトインジェクション・ジェイルブレイク
エージェントの注目度や交渉行動を最適化するシステムは、新しい操作面(manipulation surface)を生む。悪意ある第三者がエージェントを誘導すれば、本人が望まない取引が成立しうる。
3. 法的責任の空白
「機械同士の取引」での詐欺・契約不履行・誤発注の責任所在が未定義。エージェント代理取引を規制する法的枠組みが現時点で存在しない。
4. 企業の利害動機との乖離
社員ボランティアによる実験では性善説が成り立つが、企業がエージェントを運用する場合は敵対的インセンティブが働く。例えば「自社製品をユーザー代理エージェントに優先的に薦めさせる」ような誘導が可能になる。
5. ハルシネーション・作話
犬シッティングや雑談において、エージェントが架空の背景情報を生成。「Claudeが代理人ではなく人間役を演じた」結果であり、誠実な代理エージェントとしての設計指針が必要になる。
これらは生成AIや自律エージェント全般に共通する論点でもあります。当社の生成AI セキュリティ・リスクの全体像や、AIエージェント セキュリティ対策ガイドも合わせて参照してください。
自社でAIエージェント代理を導入するときのチェックリスト
Project Dealは社内実験ですが、企業がAIエージェントを業務に導入する際の示唆は明確です。「自分がHaiku側にならない」ためのチェック項目を整理します。
観点 | 確認すべきこと |
|---|---|
モデル選定 | 取引・交渉・意思決定を任せる場合、コスト最優先で軽量モデルを選ぶと意思決定品質で損をする可能性。重要度に応じてOpus級/Haiku級を使い分ける |
同等性の担保 | 取引相手のエージェント品質と自分のエージェント品質が極端に乖離していないか。BtoB調達では特に注意 |
監督ループ | 完全自律にするか、閾値(金額・カテゴリ)超過時に人間承認を挟むか。Project Dealは後者を採用しなかった点が特徴 |
ログ・監査 | 全交渉履歴を保管し、後から検証可能にする |
ハルシネーション対策 | エージェントが架空の根拠で意思決定していないかを抜き取り検証 |
法務・契約 | 自律エージェントが結んだ取引の有効性・責任範囲を契約書面で明確化 |
開示義務 | 取引相手に「AIエージェントが代理で交渉している」ことを開示するか |
特に「自分のエージェントが弱いモデルだと気付けない」という認知盲点は、Project Dealが実証した最も実務的な学びです。導入時にはモデル選定基準を社内で標準化することを推奨します。
使用されたモデル(Opus 4.5/Haiku 4.5)について
実験で使われた2モデルの公開情報は以下の通りです(実験当時=2025年12月時点)。
モデル | リリース | 主な用途 |
|---|---|---|
Claude Haiku 4.5 | 2025年10月15日 | 高速・低コスト。コンテキスト200Kトークン、出力最大64K、$1/1M入力・$5/1M出力(要公式確認) |
Claude Opus 4.5 | 2025年後半(実験当時のフロンティアモデル) | 最高性能。複雑な推論・コーディング・エージェント用途 |
2026年4月時点では後継モデル(Claude Opus 4.6/4.7など)が登場している可能性があり、最新の料金・性能は公式のClaude料金ページで確認してください。
Claude本体の概要や使い方はClaudeとは?特徴・料金・使い方を解説、料金体系はClaude料金プラン徹底解説も参考になります。
Project Dealはこんな人・こんな企業に参考になる
参考にすべき人・企業
- AIエージェントを業務運用に導入したい事業会社 — 自律エージェントの可能性とリスクを一次情報で把握できる
- BtoB調達・社内購買でAIを使いたい担当者 — モデル品質差が交渉結果に直結する具体例として活用できる
- AI倫理・公平性に関心のある研究者・政策担当者 — 「無自覚な格差」という新しい論点を提示している
- 生成AIプロダクトを設計するエンジニア・PdM — エージェント設計時のハルシネーション・人格化問題の参考事例
あまり参考にならない人
- すぐに使える商用サービスを探している人 — Project Dealは研究実験であり、商用プロダクトではない
- 個人の売買やフリマアプリの代替を期待している人 — 一般公開の予定は2026年4月時点で公表されていない
- AIを「単一タスクの自動化ツール」として捉えたい人 — Project Dealの示唆は「エージェント同士の市場」という複雑系設計が前提
よくある質問(FAQ)
Q. Project Dealは商用化される?
公式には商用化や一般公開の予定は明言されていません。Anthropicは研究実験と位置づけており、Project Vend同様、AIエージェント運用の課題を学ぶための社内検証として実施されました。今後の続編や派生プロダクトについては要追跡です。
Q. 一般ユーザーは参加できた?
参加者はAnthropic SFオフィス勤務の従業員69名に限定されており、社外ユーザーは参加していません。Anthropicの管理下で倫理的リスクを抑えるための設計です。
Q. 取引は本当に成立したのか?
Run A(全員Opus 4.5の公開Run)のみが実マーケットとして運用され、実際にギフトカードと物品が交換されました。Run B〜Dは比較研究・コントロール用で、結果データの解釈に使われています。
Q. 「Project Deal」と「Project Vend」の違いは?
Project VendはClaude単体が無人売店を運営する実験で、エージェントが事業者役。Project Dealは多数のClaudeエージェントが市場参加者として相互交渉する実験で、エージェントが代理人役。視点が「事業運営」から「市場参加」へ移った続編です。
Q. 結果として一番重要な学びは何?
「弱いモデルに代理されて損をしていても、ユーザーはそれに気づけない」という認知盲点です。公平性スコアがOpus側4.05・Haiku側4.06で有意差がなかった点が、AI代理経済における中心的な倫理課題として位置づけられました。
Q. 自社で似た実験をしたいときは?
Claude APIで同様のマルチエージェント環境は構築可能ですが、法務・監査・ハルシネーション対策を事前に整備することを推奨します。詳細はAnthropicの公式ドキュメントと、当社のAIエージェントとは・AIエージェント フレームワーク比較をご参照ください。
まとめ:Project Dealが示した「能力非対称性」という新しい論点
Project Dealは、AIエージェント代理経済が技術的に成立しうること、そして能力差が無自覚な経済格差を生むことを同時に示した社内実験です。
ポイントを再掲します。
- 規模:69名・1週間・186件・$4,000超・500点以上
- 構成:4つの並行Run(A〜D)、Run Aのみ実マーケット
- 発見:Opus 4.5代理はHaiku 4.5代理より平均$3.64多く売れた
- 倫理課題:本人は損に気づけない(公平性スコアに有意差なし)
- リスク:品質格差・プロンプトインジェクション・法的空白・敵対的インセンティブ・ハルシネーション
- 位置づけ:研究実験。商用化は未定
AIエージェントの導入を検討している方は、「どのモデルを誰の代理にするか」を意思決定の早い段階で標準化しておくことを強く推奨します。Project Dealが提示した「Agent Quality Gap」は、今後の業務AI設計における中心的な論点になっていくはずです。
関連記事
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

Anthropic×NEC戦略的提携を徹底解説|日本拠点初のグローバルパートナー・Claude Opus 4.7とClaude Code 3万人展開の全貌
2026/04/26

Adobe CX Enterpriseとは?Experience Cloud刷新・CX Coworker・MCP連携を徹底解説
2026/04/26

Qwen3.6-Plusとは?SWE-bench 78.8%・1Mコンテキストの中位モデルを料金・使い方まで徹底解説
2026/04/26

NTT tsuzumi 2とは?政府Gennai基盤採用の日本語最高性能LLMを徹底解説
2026/04/26

Xiaomi MiMo V2.5 / MiMo-V2.5-Pro とは|1T MoE・1Mコンテキスト・ClawEval 64% Pass^3を徹底解説
2026/04/25

Flowise RCE CVE-2025-59528 脆弱性まとめ|CVSS 10.0・AI Agent Builder 12,000+公開インスタンスへの攻撃徹底解説
2026/04/24

