AIツール2026年5月更新

GPT-5.5(Spud)とは?性能・料金・Claude Opus 4.7との違いを徹底解説【2026年5月最新】

公開日: 2026/04/12
更新日: 2026/05/13
GPT-5.5(Spud)とは?性能・料金・Claude Opus 4.7との違いを徹底解説【2026年5月最新】

この記事のポイント

OpenAIが2026年4月に発表した最新フラッグシップ「GPT-5.5(コードネーム:Spud)」を、公式ベンチマーク・実コスト・Claude Opus 4.7との使い分け・ゴブリン事件・幻覚率まで一次情報ベースで整理しました。

GPT-5.5(コードネーム:Spud)は、OpenAIが2026年4月23日にリリースしたフロンティアモデルで、エージェント的コーディング・コンピュータ操作・科学研究を中核ベンチマークとして再設計された最新世代です。 ターミナル操作・抽象推論・長文脈処理で業界トップ級の数字を出す一方、独立評価のAA-Omnisicenceでは自信過剰な幻覚率が指摘され、Claude Opus 4.7と用途を分けて使うのが現時点での現実解です。

この記事でわかること:

  • GPT-5.5の基本情報と「Spud」コードネームの位置づけ
  • 公式ベンチマーク(GPT-5.4 / Claude Opus 4.7 との三者比較)
  • 料金体系(API・ChatGPTプラン別・Codex)と、表示価格と実コストの乖離
  • GPT-5.5 / Pro / Thinking / Instant の4バリアントの違い
  • 幻覚率・日本語精度・ゴブリン事件・Preparedness Frameworkの読み方
  • Claude Opus 4.7との用途別使い分け
  • こんな方におすすめ/おすすめしない方

ChatGPT有料プランユーザー・API開発者・企業のAI活用担当者に向けた内容です。

GPT-5.5(Spud)とは — OpenAIの最新フロンティアモデル

GPT-5.5は、2026年4月23日(米国時間)にOpenAIが発表した最新の汎用AIモデルで、社内コードネームは「Spud(スプッド)」です。 OpenAI共同創業者の Greg Brockman 氏は発表時に「これは新しいクラスの知能であり、よりエージェント的かつ直感的なコンピューティングへの大きな一歩」とコメントしています。

ChatGPTのインターフェース画面 — GPT-5.5(Spud)はChatGPTとCodexの中核エンジンとして搭載

基本情報

項目

内容

正式名称

GPT-5.5

コードネーム

Spud(スプッド)

開発元

OpenAI

発表日

2026年4月23日(米国時間)

API公開日

2026年4月24日(追加のセーフガード実装のため発表翌日に開始)

入力モダリティ

テキスト + 画像

出力モダリティ

テキストのみ

コンテキストウィンドウ

API: 1,050,000トークン(約1M)/ Codex: 400,000トークン

最大出力

128,000トークン

知識カットオフ

2025年12月1日

バリエーション

GPT-5.5 / GPT-5.5 Pro / GPT-5.5 Thinking / GPT-5.5 Instant

提供形態

ChatGPT(Plus / Pro / Business / Enterprise)、Codex、OpenAI API

OpenAIは公式に「弊社史上もっとも賢く、もっとも直感的に使えるモデル」と位置づけており、強化領域として「エージェント的コーディング・コンピュータ操作・ナレッジワーク・初期段階の科学研究」を挙げています。

ChatGPT・Codex・AIブラウザを束ねる「スーパーアプリ」構想の中核

GPT-5.5は単なるモデル更新ではなく、OpenAIが進める ChatGPT・Codex・AIブラウザの統合(いわゆる「スーパーアプリ」構想)の中核エンジン として位置づけられています。コードを書く・調査をする・ブラウザを操作する・スプレッドシートを編集するといった複数ツールをまたいだタスクを、一つのモデルで最後まで自走させる設計です。

ITmedia(at @IT)が2026年5月12日に「最高性能ではないのにエンジニアが熱狂する理由」として、最後まで自走する力(Codex連携の安定性・ツール選択精度・トークン効率) を分析したのも、この設計思想を背景にしています。

GPT-5.5の4つのバリアント — 用途で使い分ける

GPT-5.5は単一モデルではなく、用途別に 4つのバリアント が提供されています。料金とアクセス権限が大きく異なるため、最初に整理しておく価値があります。

GPT-5.5のバリアント — Standard / Pro / Thinking / Instant の4種類

バリアント

主な用途

特徴

利用可能プラン

GPT-5.5(標準)

汎用業務・コーディング・調査

1Mトークン文脈・標準的な推論

Plus以上、API

GPT-5.5 Pro

最難関数学・科学研究・高精度タスク

並列test-time computeで精度を底上げ・料金は標準の6倍

Pro / Business / Enterprise、API

GPT-5.5 Thinking

推論を時間をかけて行うタスク

reasoning effortを none / low / medium / high / extra-high で制御

Plus以上、API

GPT-5.5 Instant

軽量・高速応答

5月5日からFree / Go層に段階展開開始

Free / Go(段階展開中)/ Plus以上

選び方の目安:

  • 日常的なコーディング・文書作成 → GPT-5.5(標準)
  • 数学研究・科学的推論・競技系 → GPT-5.5 Pro(料金6倍に見合うのは限定された用途)
  • 長時間思考型のエージェント・複雑な解析 → GPT-5.5 Thinking
  • 軽量チャットや無料ユーザー向けプロダクト → GPT-5.5 Instant

API料金が6倍になるGPT-5.5 Proを常用する必要があるケースは多くありません。標準版で十分な業務であれば、まず標準版を選ぶのが合理的です。

GPT-5.5の性能ベンチマーク — 公式数値と独立評価を併記

OpenAI公式の主要ベンチマークを集計すると、GPT-5.5はターミナル操作・コンピュータ操作・抽象推論・長文脈で業界トップ水準。一方、複雑な多ファイルコーディング・MCPツール連携・最難関学際試験ではClaude Opus 4.7が先行というすみ分けが見えてきます。

主要ベンチマーク比較(GPT-5.5 / GPT-5.4 / Claude Opus 4.7 / Gemini 3.1 Pro)

ベンチマーク

評価内容

GPT-5.5

GPT-5.4

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

ターミナル・CLI自律操作

82.7%

75.1%

69.4%

68.5%

ARC-AGI-2

抽象推論

85.0%

73.3%

75.8%

未公表

FrontierMath Tier 1-3

数学

51.7%

未公表

43.8%

未公表

FrontierMath Tier 4

最難関数学

35.4%

27.1%

22.9%

未公表

GDPval

知識労働・業務ワークフロー

84.9%

83.0%

80.3%

未公表

HealthBench Professional

医療領域

51.8%

48.1%

未公表

未公表

SWE-bench Pro

複雑な多ファイルコーディング

58.6%

57.7%

64.3%

未公表

GPQA Diamond

大学院レベル科学

93.6%

未公表

94.2%

未公表

MCP-Atlas

マルチツール連携

75.3%

未公表

77.3%

未公表

AISI 専門家サイバータスク

サイバーセキュリティ

71.4%

未公表

未公表

未公表

数値はOpenAI公式システムカードおよび各種ベンチマーク発表値。Artificial Analysisの統合評価では、GPT-5.5が主要評価項目で「5項目首位/3項目次点」となっています。

GPT-5.5が強い領域

  • ターミナル操作(Terminal-Bench 2.0: 82.7%) — Claude Opus 4.7に+13.3pt差。DevOps・CLI自動化で優位
  • 抽象推論(ARC-AGI-2: 85.0%) — Claude Opus 4.7に+9.2pt
  • 最難関数学(FrontierMath Tier 4: 35.4%) — Claude Opus 4.7(22.9%)の1.5倍以上
  • 知識労働(GDPval: 84.9%) — 業務ワークフロー型タスクで首位

Claude Opus 4.7がリードする領域

  • 複雑コーディング(SWE-bench Pro: 64.3% vs 58.6%) — 実GitHub Issue解決型
  • MCPツール連携(MCP-Atlas: 77.3% vs 75.3%)
  • 大学院レベル科学(GPQA Diamond: 94.2% vs 93.6%) — 僅差だがClaudeが上

独立評価の注意点

OpenAI公式が「業界トップ」とアピールする一方、Tom's Guide(米テック媒体)が実施したGPT-5.5 vs Claude Opus 4.7 の7項目比較テストでは、Claude Opus 4.7 が全勝(7-0) したと報告されています。スピードでは評価される一方、ハルシネーション傾向を批判されたことが要因です。

公式ベンチマークと独立評価で結果が割れるのは珍しくありません。自分のユースケースに近いタスクで小規模に試してから本格採用するのが現実的です。

表示価格と「実コスト」のギャップ — エージェント開発者は要注意

GPT-5.5のAPI単価はGPT-5.4のちょうど2倍ですが、OpenRouter経由の実測ではタスクあたり実コストが+49〜92%増になるケースが報告されています。 「短い出力でトークン効率が改善するから相殺される」というOpenAI説明と実態に乖離があり、AIエージェント開発者は要注意です。

GPT-5.5の料金体系 — ChatGPT/API/Codexの料金構造イメージ

API料金(2026年4月24日時点・100万トークンあたり)

モデル

入力

キャッシュ入力

出力

gpt-5.5

$5.00

$0.50

$30.00

gpt-5.5-pro

$30.00

未公表

$180.00

gpt-5.4(参考)

$2.50

$15.00

Claude Opus 4.7(参考)

$5.00

$25.00(200K超は$37.50)

  • Batch / Flex モード: 標準の 0.5倍
  • Priority(SLA保証): 標準の 2.5倍
  • Codex Fast Mode: 通常の 2.5倍コスト・1.5倍速度

入力長別の「実コスト増加率」(OpenRouter実測ベース)

入力長

GPT-5.5 の実コスト増(vs GPT-5.4)

Claude Opus 4.7 の同様の増加率

2,000トークン未満

+92%

+12〜27%

2,000〜10,000トークン

+69%

+12〜27%

50,000〜128,000トークン

+49%

+12〜27%

短いプロンプトでは、応答がむしろ膨らむ傾向(補完しようとする)が観測されており、「短くて頻度の高いAPIコールを大量に投げるエージェント」ほど打撃が大きくなります。

コスト判断の実務ポイント

  1. エージェント用途は実測必須 — 表示価格だけで予算を組むと予想を超える
  2. 長文一括処理ならGPT-5.5の方が有利になる場合がある — Claude Opus 4.7は200Kトークン超で出力単価が$37.50/Mに上昇
  3. Batch / Flex で50%オフ — レイテンシ許容できるバッチ系では効果大
  4. GPT-5.4を残す選択肢も検討 — 業務が安定しているなら、重いタスクからGPT-5.5へ段階移行

ChatGPTプラン別の利用可否(2026年5月時点)

ChatGPT側の料金は基本据え置きで、既存の有料プランから利用できます。2026年4月には新たに月$100の「Pro $100」中間層プランが新設され、GPT-5.5 Proへのアクセス門戸が広がりました。さらに5月5日からGPT-5.5 Instantが無料層に段階展開しています。

プラン

月額

GPT-5.5 標準

GPT-5.5 Pro

Codex

GPT-5.5 Instant

Free

$0(米国は広告付)

△(5/5から段階展開)

Go

$8(米国は広告付)

△(Instantのみ)

△(5/5から段階展開)

Plus

$20

○(Thinkingも可)

Pro $100(新設)

$100

Pro $200

$200

Business

$25〜30/ユーザー

Enterprise

要問い合わせ

Edu

要問い合わせ

未確認

未確認

未確認

※日本では消費税10%が加算されます。最新の価格・プラン構成はOpenAI公式の価格ページを確認してください。

プラン比較の要点としては次の3点が重要です。

  • GPT-5.5 Pro へのアクセスは「Pro $100」プランから可能に — 従来は$200のPro Plusが必要だった
  • Codex は Plus 以上ほぼ全プランで利用可能(コンテキスト400K)
  • 無料ユーザーにもGPT-5.5 Instantが段階展開 — 全ユーザー到達時期は未確認

GPT-5.5 vs Claude Opus 4.7 — 用途別の使い分け

両モデルの得意領域は綺麗に補完関係にあり、片方をすべての業務に使うより、用途で分けるのが費用対効果の高い選び方です。

GPT-5.5とClaude Opus 4.7 — 補完的な使い分け

用途別の推奨モデル

用途

推奨モデル

主な根拠

ターミナル・CLI自動化・DevOps

GPT-5.5

Terminal-Bench 2.0で+13.3pt差

1Mトークン級の長文一括処理

GPT-5.5

コンテキスト1.05M / 公式長文ベンチで優位

抽象推論・最難関数学

GPT-5.5

ARC-AGI-2 / FrontierMath Tier 4で大差

コンピュータ操作・ブラウザ自動化

GPT-5.5

Computer Use機能と統合設計

カスタマーサポート自動化(業務横断)

GPT-5.5

GDPval 84.9%で実務ワークフロー型に強い

実GitHub Issue解決(複雑多ファイル)

Claude Opus 4.7

SWE-bench Proで+5.7pt優位

MCPツール群をフル活用するエージェント

Claude Opus 4.7

MCP-Atlas で+2.0pt

法律・医療・財務の事実確認

Claude Opus 4.7

後述の幻覚率の論点を参照

日本語中心の高精度タスク

Claude Opus 4.7

多言語ベンチで日本語に強い傾向

短くて高頻度のAPIコール

要見積もり

GPT-5.5の実コストが+92%増になる帯

速度・レイテンシの違い

GPT-5.5は「思考が深い分、初動が遅い」モデルです。

  • Claude Opus 4.7: 初回トークン応答が速く、対話UIが滑らか
  • GPT-5.5: 思考時間を取る設計のため、初回応答に遅延を感じる場面あり

リアルタイム対話UIには Claude Opus 4.7、バックグラウンド自走型のエージェントには GPT-5.5 が合うケースが多くなります。

より詳しい比較は Claude vs ChatGPT 比較ガイド もご参照ください。

制約と注意点 — 幻覚率・ゴブリン事件・日本語精度

GPT-5.5は能力面で大きく進化した一方、正答率トップと同時に「自信過剰な幻覚率」もトップという独特の弱点があります。実務で使うときの注意点を整理します。

Claude Opus 4.7 — GPT-5.5の比較対象となるAnthropicの最新Opusモデル

出典: Anthropic 公式ニュース

ハルシネーションの正しい読み方 — 「23%改善」と「86%」は別指標

公式・独立評価で出てくる数字を混同しないよう、ここで整理します。

指標

数値

出典

意味

主張レベルの正答確率

+23%向上

OpenAI公式

個別の主張が事実として正しい確率(vs GPT-5.4)

応答全体の事実誤り発生率

-3%

OpenAI公式

1応答中に1つでも誤りがある率(やや改善)

HealthBench Professional

51.8%(+3.7pt)

OpenAI公式

医療領域

AA-Omniscience 正答率

57%(全モデル中最高)

Artificial Analysis

ドメイン外質問の正答率

AA-Omniscience 自信過剰幻覚率

86%

Artificial Analysis

「知らないはずの問いに自信を持って答える」率

「86%」は全タスクで幻覚が出る確率ではありません。 AA-Omniscienceの「自信過剰な幻覚率」は、モデルが知らないはずの専門知識を問われたときに、それでも自信を持って答えてしまう割合の指標です。一般的なコーディング支援や定型文書生成での幻覚率とは別物です。

ただし「精度トップだが、知らないことに自信満々で答える割合もトップ」というキャリブレーション・ギャップは、医療・法務・規制業務にとっては重大なリスクです。ファクトチェックの独立プロセス(人間レビュー・別モデル相互検証・社内根拠データベースとの照合)を整備したうえで使うのが現実解です。

ゴブリン事件(2026年4〜5月) — 強化学習バイアスの教訓

リリース直後にX(旧Twitter)で話題になった「ゴブリン固執」問題は、技術的に非常に興味深いアライメント事例です。

  • 2026年4月末、GPT-5.1以降のChatGPTで goblin への言及が +175%gremlin が +52% に増加していたと報告された
  • 5月1日前後にOpenAI公式ブログ "Where the goblins came from" が公開
  • 原因は、過去に存在した「Nerdy(オタクっぽい)」ペルソナの訓練時、creatures(生き物)系メタファーを使うと報酬スコアが上がる学習ショートカットが形成されていたこと
  • Nerdyペルソナの応答は全体の2.5%に過ぎなかったのに、「goblin」言及の 66.7% を占めていた
  • OpenAIは2026年3月にNerdyペルソナを廃止し、関連報酬信号と訓練データをフィルタしたが、GPT-5.5の内部テストでも残存。最終的にシステムプロンプトで goblins / gremlins / trolls / ogres / raccoons / pigeons などの不要登場を明示禁止

実務的な含意: 強化学習で学習されたクセは、訓練条件外の文脈にも漏出します。エンタープライズ採用時は、特定の語彙や口調が業務文脈で意図せず出現していないかをモニタリングする運用を組んでおくとリスク低減につながります。

日本語精度

公式が日本語特化のベンチマーク結果を公開していないため、定量比較は困難です。多言語評価では Claude Opus 4.7 のほうがやや先行する報告があり、日本語が主用途の場合は GPT-5.5 と Claude Opus 4.7 を同じプロンプトで比較し、品質を実測してから採用判断する ことを推奨します。

Codex環境のコンテキスト制限

APIでは1,050,000トークンが提供される一方、Codex環境では400,000トークンに制限されます。GitHub Issue #19409 / #19208 で「リリース直後に1Mが消えた」「仕様が混乱している」という報告も出ており、大規模リポジトリの一括処理を見込む場合は、現行コンテキスト上限を実機で確認してから設計したほうが安全です。

現時点の制約まとめ

制約

内容

推奨対応

出力はテキストのみ

画像・音声・動画の生成は不可

画像生成はGPT-Image系、動画はSoraなど別ルートで

自信過剰な幻覚(AA-Omniscience 86%)

知らない領域でも断言する傾向

専門業務では独立検証プロセス必須

短いAPIコールで実コスト+92%

エージェント開発で打撃

Batch/Flex併用・GPT-5.4も比較

Codex環境のコンテキスト400K

API(1M)と差がある

大規模リポジトリは事前検証

日本語ベンチが非公開

定量比較が難しい

自社ユースケースで実測

Free / Goは段階展開中

標準モデルは未開放

Plus以上または段階開放を待つ

生成AIのセキュリティリスクと対策 も合わせて整理しておくと、組織導入時の判断材料が揃います。

OpenAI Preparedness Frameworkの結果 — 「High」と「Critical」の違い

GPT-5.5は、OpenAI独自の安全性評価枠組み「Preparedness Framework v2」で、生物・化学およびサイバーセキュリティの両領域が「High」に分類されています。 ただし、いずれも最高レベルの「Critical」閾値には到達していません。

Preparedness Framework のレベル定義

レベル

意味

Medium

有意な能力向上が確認されるが、現行の対策で管理可能

High

重大な能力を持つが、追加の安全対策を施せば管理・デプロイ可能

Critical

単体で重要インフラに取り返しのつかない被害を与え得る水準。配備停止

「Critical」の閾値(OpenAI公式)は 「人間の介入なしに、強化された実世界の重要システムに対しすべての重大度のゼロデイ脆弱性を開発・実行できる能力」 です。GPT-5.5はこの水準には到達していません。

ドメイン別の評価結果

ドメイン

分類

公式コメント

生物・化学

High

セーフガードを起動。Critical閾値には到達せず

サイバーセキュリティ

High(Critical未満)

GPT-5.4からの能力向上を受け、API公開を1日遅らせて追加セーフガードを実装

AI自己改善

High未満

中堅研究エンジニア相当の能力には至らない

API公開が発表翌日にずれた背景は、まさにサイバーで「High」に上がったことに対する追加セーフガード実装のためです。Critical未満であってもOpenAI側がデプロイ管理を強化していることが、現時点での運用判断材料になります。

実施された安全対策

  • 約200社の「Trusted Early Access Partner」による内部・外部レッドチーミング
  • 高リスク活動・サイバー要求に対する分類器の強化
  • 製品ベンチマーク(不許可コンテンツ): 嫌がらせ 0.822、ヘイト 0.868、性的コンテンツ 0.925 — GPT-5.4-Thinkingと同等水準
  • マルチターンJailbreakへの耐性は維持されていると公式が報告
  • システムカード(詳細評価書)をリリース日同日公開

企業導入時は、Business / Enterpriseプラン相当のデータ取り扱い契約と、自社AI利用ポリシーの整備が前提となります。

GPT-5.4からの主な進化点

「マイナーアップデート」ではなく、エージェント前提で再設計された世代として捉えるのが妥当です。実ユーザー体験に効く変化は4点。

NVIDIA GB200 NVL72 — GPT-5.5の学習・推論基盤を支える次世代AIサーバーGPU

出典: NVIDIA 公式サイト

1. エージェント能力の本格的な向上

Terminal-Bench 2.0 で 75.1% → 82.7%(+7.6pt)。Codex環境でも「多ファイルリファクタリング・テスト実行・エラー対応・ファイル操作」を一連の自走として扱える設計に最適化されました。at @IT が「最後まで自走する力」と評したのはこの点です。

2. 抽象推論と数学の大幅向上

ARC-AGI-2 で 73.3% → 85.0%(+11.7pt)、FrontierMath Tier 4 で 27.1% → 35.4%。数学・科学研究のための実用ラインに乗ってきました。GPT-5.5 Proでは FrontierMath Tier 4 がさらに向上する報告もあります。

3. ハルシネーションの主張レベル改善

公式評価で個別の主張レベル正答率が +23%向上、応答全体の事実誤り発生率が -3%。完全解決ではないものの、ベンチマーク上の改善は確認できます。

4. コンピュータ操作(Computer Use)の統合

実ブラウザ操作・ローカルファイル操作・デスクトップアプリの自律操作がデフォルト機能として整備され、Function Calling / Structured Outputs / MCP統合とあわせて、複数ツールを横断するエージェント設計が公式仕様としてサポートされています。

前世代の詳細は GPT-5.4とは?OpenAI最新モデルの機能・料金・使い方 もご覧ください。

こんな方におすすめ/おすすめしない方

GPT-5.5をおすすめできる方

  • 長時間自走するAIエージェントを構築したい開発者 — Terminal-Bench / Computer Use / ツール選択精度が業界トップ級
  • Codexでコーディング業務を回している開発チーム — 既存プランで即日利用可。多ファイル編集と長期タスクの安定性が改善
  • 1Mトークン規模の大量データ・コードベースを扱うアナリスト・研究者 — 1,050,000トークンのAPIコンテキスト
  • 数学・科学研究で最高精度を求める方 — GPT-5.5 ProでFrontierMath Tier 4まで対応
  • 知識労働ワークフローを自動化したい企業 — GDPval 84.9%
  • ChatGPT Plus / Pro / Business / Enterpriseユーザー — 既存サブスクのままで試せる

GPT-5.5をおすすめしない方(現時点)

  • 法律・医療・財務の単独ファクトチェック業務が中心の方 — AA-Omniscience の自信過剰幻覚率を踏まえると、独立検証プロセスがない単独運用は危険
  • 日本語特化の高精度業務が中心の方 — 公式の日本語ベンチが非公開。実測比較してClaude Opus 4.7と並べて判断するのが安全
  • 短くて頻度の高いAPIコールを大量に投げるエージェントを開発中の方 — 実コスト+92%増の帯に当たる可能性。Batch/Flex併用や GPT-5.4 残置も検討
  • 実GitHub Issue解決(複雑多ファイル)が主用途の方 — SWE-bench Proでは Claude Opus 4.7 が +5.7pt 優位
  • 画像・音声・動画の生成を期待している方 — GPT-5.5の出力はテキストのみ
  • Free / Go プランのみの個人ユーザー — 標準モデルは未開放。GPT-5.5 Instantの段階展開かPlus移行を待つ
  • GPT-5.4で業務が安定している方 — 無理に全面移行せず、重いタスクから段階的に試す方が合理的

よくある質問(FAQ)

Q1. GPT-5.5(Spud)は無料で使えますか?

現時点(2026年5月)では、無料層に向けて段階展開されているのはGPT-5.5 Instant(軽量版)のみで、標準のGPT-5.5は ChatGPT Plus($20/月)以上が必要です。 API試用クレジットで試す手もあります。

Q2. コードネーム「Spud」とは何ですか?

OpenAIが社内で使っていた開発コードネームで、英語で「ジャガイモ」を意味します。 GPT-5.5の正式名称はGPT-5.5ですが、リリース前後の議論や開発者コミュニティでは「Spud」の通称が使われていました。

Q3. GPT-5.5とGPT-5.5 Proはどちらを選ぶべきですか?

日常的なコーディング・文書作成・エージェントタスクには標準のGPT-5.5で十分です。 GPT-5.5 ProはAPI料金が6倍(入力$30/出力$180)になるため、最難関数学・科学研究・精度最優先の競技系タスクで初めて費用対効果が出ます。新設の Pro $100 プランからアクセス可能になっています。

Q4. 幻覚率「86%」というのは本当ですか?

Artificial AnalysisのAA-Omniscience評価における「自信過剰な幻覚率」が86%で、これはモデルが知らないはずの専門領域の質問に自信を持って答えてしまう率です。 一般的な業務タスクの幻覚率とは別の指標であり、コーディング支援や日常的な文章生成で同じ率の誤りが出るわけではありません。ただし、専門業務では独立した事実確認プロセスが必須です。

Q5. GPT-5.5の出力に音声や動画は含まれますか?

いいえ、GPT-5.5の出力はテキストのみです。 入力にはテキストと画像を受け付けますが、生成できるのはテキストのみで、画像・音声・動画の生成は別モデル(GPT-Image系、Sora など)の役割です。

Q6. ゴブリン事件とは何ですか?

GPT-5.1以降のChatGPTで「goblin(ゴブリン)」への言及が不自然に増加した問題です。 原因は廃止されたNerdyペルソナの訓練時に、creatures系メタファーで報酬スコアが上がる学習ショートカットが形成され、他文脈にも漏出していたこと。OpenAIは公式ブログで詳細を公開し、システムプロンプトで関連語彙を抑制する対処を行いました。強化学習バイアスの実例として今後参照される事件です。

Q7. APIの料金がGPT-5.4の2倍と聞きましたが、実際のコストはどう変わりますか?

表示価格は2倍(入力$2.50→$5.00、出力$15→$30)ですが、OpenRouter経由の実測では実コストが+49〜92%増になるケースが報告されています。 特に2,000トークン未満の短い入力では +92% と最大の増加率になります。AIエージェントのような短く高頻度のコールパターンほど影響が大きいため、本格採用前に実測でコスト試算するのが安全です。

Q8. 日本語業務にGPT-5.5は使えますか?

使えますが、日本語特化のベンチマーク数値は公式から公開されていません。 多言語評価ではClaude Opus 4.7のほうがやや先行する報告もあるため、日本語の高精度ファクトチェックや要約が中心の場合は、両モデルを実プロンプトで比較してから採用判断することを推奨します。

Q9. Codex環境のコンテキストは1Mですか?400Kですか?

Codex環境では400,000トークン、APIでは1,050,000トークンです。 GitHub Issuesでは仕様変動の報告もあるため、大規模リポジトリの一括処理を見込む場合は、実機で現行上限を確認してから設計してください。

Q10. GPT-5.5はClaude Code・Cursorとどう違いますか?

GPT-5.5はモデル本体で、Claude Code・Cursor・Codexはそれを使うエージェント/IDE側の製品です。 OpenAI側のコーディングエージェントはCodex、Anthropic側はClaude Code、サードパーティ統合IDEとしてCursorがあります。AIコーディングツール全体の比較は AIコーディングツールおすすめ比較 をご参照ください。

まとめ — GPT-5.5(Spud)の現実的な使い方

GPT-5.5(Spud)は、OpenAIが2026年4月に発表した最新フロンティアモデルで、エージェント的コーディング・コンピュータ操作・抽象推論・長文脈処理を中心に大きく前進した世代です。一方で、独立評価では「正答率トップだが自信過剰な幻覚率もトップ」というキャリブレーション・ギャップが指摘され、短く高頻度のAPIコールでは実コストが+92%増に達するなど、運用面の現実的な制約も無視できません。

GPT-5.5の強み:

  • ターミナル・CLI操作・DevOps で業界トップ(Terminal-Bench 2.0: 82.7%)
  • 抽象推論・最難関数学が大幅向上(ARC-AGI-2: 85.0%、FrontierMath Tier 4: 35.4%)
  • 1,050,000トークンの長文脈をAPIで提供
  • コンピュータ操作・ツール連携・エージェント設計が標準仕様化

GPT-5.5の弱み:

  • AA-Omniscience の自信過剰幻覚率が高い(86%)
  • 短いAPIコールで実コストが大幅増(+92%)
  • 出力はテキストのみ
  • 日本語ベンチが公式非公開
  • Codex環境のコンテキストは400Kで、APIの1Mとは異なる

動き方の目安:

  • ChatGPT 有料ユーザー:既存プランで即日試せる。まず重いエージェントタスク・長文脈処理から
  • API開発者:GPT-5.4からの段階移行が安全。Batch/Flexでコスト管理、短コール系は実測必須
  • 企業導入:Business / Enterpriseの契約整備後、Claude Opus 4.7との役割分担(長文脈・自走エージェントはGPT-5.5、複雑コーディング・日本語ファクトチェックはClaude Opus 4.7)を設計
  • Free / Go ユーザー:GPT-5.5 Instantの段階展開を待つか、Plus($20/月)へ移行

生成AIツール全体の選び方は 生成AIツールおすすめ比較、OpenAI製品全体は ChatGPTとは?機能・料金・使い方、競合のAnthropic側は Claudeとは?機能・料金・使い方 をあわせてご覧ください。

AIツールの導入でお困りですか?

お客様のビジネスに最適なAIツールをご提案します。まずは無料相談から。

この記事の著者

AI革命

AI革命

編集部

AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。

AI活用ならAI革命にお任せ。サービスを見てみる
AI Revolution Growth Arrow

AIでビジネスを革新しませんか?

あなたのビジネスにAIがどのような価値をもたらすかをご提案いたします。