Prime Intellect Labとは?セルフ改善AIエージェントを訓練するフルスタックプラットフォームの機能・料金・使い方を完全解説

この記事のポイント
Prime Intellect Labは、GPUクラスタを自前で管理せずに強化学習(RL)でAIエージェントを訓練できるフルスタックSaaSプラットフォームです。2026年5月7日のGA公開後に注目を集める同サービスについて、6つのコア機能・per-tokenの料金体系・初回セットアップ手順・競合比較まで公式情報を基に日本語で完全解説します。
Prime Intellect Labは、GPUクラスタを自前で管理することなく、強化学習(RL)によるAIエージェントの自律的な改善ループを一気通貫で実行できる、AIエージェント開発特化のフルスタック訓練プラットフォームです。2026年5月7日に正式GA(一般公開)を迎え、β期間中に処理した10,000件以上のトレーニングジョブという実績とともに注目を集めています。
本記事では、Labの6つのコアコンポーネント・per-tokenの料金体系・初回セットアップから最初のトレーニングジョブ実行まで・競合プラットフォームとの違いを公式情報に基づいて解説します。MLエンジニア・AI研究者・自社モデルの独自ファインチューニングを検討しているスタートアップ向けの記事です。

Prime Intellect Labとは——一文でわかる定義と背景
Prime Intellect Lab(プライム・インテレクト・ラボ)とは、タスク定義→評価→報酬学習→LoRAデプロイ→推論→再評価というAIエージェントの自己改善ループ全体を、GPU管理なしのSaaS環境で実行できる強化学習インフラプラットフォームです。
開発元は米国のスタートアップPrime Intellect(プライム・インテレクト)。2024年初頭に共同創業者のJohannes Hagemann(CEO)とWill Brown(CTO)が設立し、2025年3月には著名VCのFounders Fund主導で$15Mのシードラウンドを実施(累計$20M以上)。アドバイザーにはAndrej Karpathy(元Tesla AI責任者・元OpenAI)、Clem Delangue(Hugging Face CEO)、Tri Dao(FlashAttention開発者)など錚々たる顔ぶれが名を連ねています。
ミッションは「The Open Stack for Self-Improving Agents(セルフ改善エージェントのためのオープンスタック)」。INTELLECT-1(10Bグローバル分散学習)、INTELLECT-2(32B初グローバル分散RL)、INTELLECT-3(106B MoE・512台NVIDIA H200で大規模RL)という自社研究の知見を商用プラットフォームとして体系化したのがLabです。
項目 | 内容 |
|---|---|
サービス名 | Prime Intellect Lab |
提供元 | Prime Intellect(米国) |
カテゴリ | ポストトレーニング(RL)インフラ・MLOpsプラットフォーム |
提供形態 | クラウドSaaS + CLI( |
GA公開日 | 2026年5月7日 |
β実績 | 10,000件以上のトレーニングジョブ |
料金体系 | per-token(トークン単位課金) |
公式サイト | |
ドキュメント | |
OSSリポジトリ |
AIエージェント全般について知りたい方は「AIエージェントとは」の解説記事もあわせてご覧ください。
Prime Intellect Labの6つのコアコンポーネント——できること全体像
Labのプラットフォームは現時点(2026年5月)で6つのコアコンポーネントで構成されています。これらが一体となることで「環境選定→訓練→評価→デプロイ」の全サイクルを単一プラットフォーム内で完結できます。

1. Environments Hub(エンバイロンメント・ハブ)
強化学習用のタスク環境をコミュニティが共有するレジストリです。SequoiaキャピタルのポッドキャストでもGitHub for RL(強化学習版GitHub)と評されています。
- 規模(2026年5月時点・公式発表): 1,000以上のユニーク環境 / 250名以上のクリエイター / 10万回以上のダウンロード累計
- 収録環境カテゴリ: 数学推論(AIME / MATH-500)、コーディング(SWE-bench系)、ゲームプレイ、検索・ツール使用、マルチモーダルタスク、ブラウザ・コンピュータ操作など
- 環境の3要素: ①タスクデータセット、②モデル統合ハーネス(ツール・サンドボックス・コンテキスト管理)、③採点ルーブリック(報酬定義)
- 自作・共有: OSSの
verifiersライブラリを使えば独自環境を作成してHubに公開できる
2. Hosted Training(ホスト型RLトレーニング)
Labの中核機能。GPU一切不要で大規模なLoRAベース強化学習を実行できます。
バックエンドはOSS prime-rl(FSDP2分散学習 + vLLM推論)で構成され、3コンポーネントアーキテクチャで動作します。
コンポーネント | 役割 |
|---|---|
Trainer | LoRA重みの更新(勾配計算・バックプロパゲーション) |
Inference | vLLM互換APIで現在のモデルを配信・ロールアウト生成 |
Orchestrator | 環境ロジック管理・スケジューリング・TrainerとInference間の重み同期 |
設定はTOMLファイル1枚で完結し、prime train run <config.toml> コマンド1つで起動します。β期間中に10,000件以上のジョブを処理しGA昇格した実績があります。
3. Hosted Evaluations(ホスト型評価)
WebUIまたはCLIから、Hub上の任意の環境を使ってOpenAI互換エンドポイントを持つモデルをベンチマークできます。インフラ管理不要で100以上のオープンソースモデル評価に対応しています。
4. Adapter Deployments(アダプターデプロイ)
訓練済みLoRAアダプターをワンクリックでデプロイし、推論中もリアルタイムで重みを更新できます。継続的フィードバックループ(訓練→推論→再評価→再訓練)を維持する重要な機能です。
5. Prime Inference(推論サービス)
OpenAI互換APIで提供される推論エンドポイント。マルチテナントLoRAデプロイにより複数ユーザーがハードウェアを共有するため、専有GPUを確保するよりもコストが下がります。
6. Prime Sandboxes(サンドボックス実行環境)
コード実行用のセキュアな隔離環境。ブラウザ自動化・コンピュータ操作系エージェントのトレーニングに対応しています。2026年4月にBrowserbaseとのパートナーシップが発表され、ブラウザ・コンピュータ操作エージェントの訓練環境がさらに強化されました。
Prime Intellect Labの強み
強み1: per-tokenプライシングでGPU費用を最小化
従来のMLインフラではGPUサーバーを時間単位(per-hour)で確保する必要があり、訓練中の「待ち時間」や「試行錯誤のやり直し」にもコストがかかっていました。Prime Intellect LabはトークンのOutput・Input・Training量に応じたper-tokenモデルを採用しているため、実際に処理したトークン量に対してのみ課金されます。マルチテナントのLoRAデプロイにより共有ハードウェアのコスト効率も高まっています。
強み2: LoRAによる効率的な大規模モデル訓練
LabのRL訓練はLoRA(Low-Rank Adaptation)ベースです。LoRAとは、モデル全体(数億〜数百億パラメータ)の重みを書き換えるのではなく、「変化分だけを表す低ランク行列」を追加学習する軽量ファインチューニング手法です。これにより:
- フルファインチューニング比で大幅にVRAM使用量を削減
- 複数の「アダプター」を切り替えることで同じベースモデルを複数ユースケースに使い回せる
- 訓練速度が速くなり、反復実験のサイクルタイムが短縮する
Labでは訓練完了後のLoRAアダプターをそのまま推論にデプロイし、リアルタイムで重みを更新しながら継続的に改善ループを維持できます。
強み3: Environments Hubの豊富なコミュニティ資産
1,000以上のRL環境を自前で構築する必要がなく、既存の検証済み環境を即座に利用できます。数学・コーディング・エージェントタスクの環境をダウンロードすることで、環境設計に費やす工数を大幅に削減できます。
強み4: INTELLECT-3による研究実績に裏打ちされたインフラ
LabのバックエンドはINTELLECT-3(106B MoE)の実際の訓練に使われたスタックと同じものです。512台のNVIDIA H200 GPUで大規模RLを実行した実績があり、スケールアップの信頼性が検証されています。
強み5: Apache 2.0ライセンスのOSS公開
コアコンポーネントであるprime-rlはApache 2.0ライセンスでOSS公開(GitHub Stars: 1,400以上)。ベンダーロックインリスクの低減や自前環境への移行可能性を維持できる点は、企業利用での安心感につながります。
Prime Intellect Labの弱み・現時点の制約
現時点でできないこと
制約 | 詳細 |
|---|---|
SFT(教師あり微調整)未対応 | GA時点ではagentic RL with LoRAのみ。SFTはロードマップ記載「予定中」 |
DPO / GEPA / GKDも未対応 | いずれもロードマップに記載あるが、時期未定 |
クローズドモデルへの適用不可 | GPT-4o / Claude等へのRL直接適用は不可。open-weightsモデルのみ |
256 GPU超えは別途見積もり | 大規模専有クラスタ(>256 GPU)はLiquid Reserved Clusterから別途 |
日本語ドキュメントなし | 公式ドキュメント・UIともに英語のみ(2026年5月時点) |
GUI操作のみのノーコードは限定的 | 基本はCLI + TOMLファイルが主な操作インターフェース |
注意が必要な点
- セキュリティポリシーページが現在404(2026-05-29確認時点)。詳細なセキュリティポリシーの確認が困難な状態
- 非インタラクティブモードでAPIキーがシェル履歴に残る可能性がある(公式が注意事項として記載)。環境変数での設定が推奨
料金・プラン(2026年5月時点)
Prime Intellect Labの課金はper-token(トークン単位)モデルを採用しています。GPUを時間単位で確保する従来方式ではなく、実際に処理したトークン量のみに課金されるため、試行錯誤が多いRLの探索フェーズでもコストを抑えられます。
Hosted Training(RL訓練)の料金目安
訓練コストはInput・Output・Trainingの3カテゴリ別に課金されます。モデルサイズによって料金が変動します。以下は目安値です(最新価格はprime train modelsコマンドで確認することを推奨)。
モデル規模 | Input(/100万トークン) | Output(/100万トークン) |
|---|---|---|
小規模(〜1B: Qwen3.5-0.8B, Llama-3.2-1Bなど) | 約$0.02 | 約$0.06 |
中規模(7B〜14B) | $0.05〜$0.50 | $0.15〜$1.50 |
大規模(70B前後) | 最大約$1.00 | 最大約$3.00 |
⚠️ 注意: 料金は変動する可能性があります。最新価格は
prime train modelsコマンドで確認するか、公式ドキュメント(Models & Pricing)を参照してください。
オンデマンドGPUの料金(Lab以外の直接利用時)
Lab外でGPUを直接利用する場合: $0.47〜$4.99/時間(オンデマンド、1〜256 GPU)。
料金体系の特徴
- 定額サブスクリプション・最低利用料金なし(公式ドキュメント確認時点)
- 無料プランなし(要アカウント登録)
- エンタープライズ向けプランの詳細は非公開(256 GPU超えは別途見積もり)
- 最新価格のライブ確認:
prime train models(CLIで取得)
使い方——セットアップから最初のトレーニングジョブまで
前提条件
- Python 3.8以上の実行環境
- 公式サイトでのアカウント登録・APIキー発行
Step 1: CLIインストール
uv tool install -U prime(uvが未インストールの場合は pip install prime も可)
Step 2: 認証
prime login実行するとAPIキーの入力を求められます。APIキーはシェル履歴に残らないよう、環境変数での設定を推奨します。
export PRIME_API_KEY="your-api-key-here"Step 3: ワークスペース初期化
prime lab setupプロジェクトディレクトリが初期化され、サンプルの設定ファイルが生成されます。
Step 4: 最初のトレーニングジョブを実行する
付属のサンプルTOML設定(アルファベットソートタスク)でまず動作を確認できます。
prime train run configs/rl/alphabet-sort.tomlTOMLファイルの構造(概要)
設定ファイルはTOML形式で、訓練の主要パラメータを宣言的に記述します。
[training]
model = "Qwen/Qwen2.5-7B-Instruct" # ベースモデル
environment = "math/aime" # 使用するHub環境
max_steps = 1000 # 最大ステップ数
[lora]
r = 16 # LoRAランク
alpha = 32
[inference]
temperature = 0.8
max_tokens = 2048Step 5: 訓練済みアダプターのデプロイ
prime deploy <adapter-id>LoRAアダプターがPrime Inferenceエンドポイントにデプロイされ、OpenAI互換APIで即時利用できます。

他プラットフォームとの比較
Prime Intellect Labの立ち位置を理解するために、主な選択肢と比較します。
比較軸 | Prime Intellect Lab | 自前GPUクラスタ | Hugging Face AutoTrain | Modal |
|---|---|---|---|---|
主な用途 | Agentic RL・LoRA訓練 | 完全自由・研究 | SFT・分類・NLP全般 | 汎用GPUサーバーレス |
対応アルゴリズム | Agentic RL(SFTは予定) | 制限なし | SFT・DPO・LoRA等 | 制限なし(自前実装) |
課金モデル | per-token | 時間単位 | ジョブ単位 | 時間単位 |
GPU管理 | 不要(フルマネージド) | 要(自分で管理) | 不要 | 不要 |
スケール上限 | 256 GPU(超えは要相談) | 予算次第 | 中規模 | 中規模 |
RL環境共有 | Environments Hub(1,000以上) | なし | なし | なし |
OSS |
| - | 一部OSSあり | なし |
日本語対応 | 英語のみ | - | 英語のみ | 英語のみ |
初期設定難易度 | 中(CLI + TOML) | 高 | 低(GUI中心) | 中 |
クローズドモデル対応 | 不可 | 可(self-hosted) | 不可 | 可(APIコール) |
選び分けのポイント
Prime Intellect Labが有利なケース:
- RLベースのエージェント訓練に特化したい
- GPU管理コストを削減しつつ大規模訓練を試したい
- Environments HubのコミュニティRL環境を活用したい
- per-tokenの従量課金で実験コストを最小化したい
他の選択肢が有利なケース:
- SFT・DPO等のアルゴリズムが主な用途 → Hugging Face AutoTrain
- 完全なカスタマイズ・ベンダーロックイン回避 → 自前GPUクラスタ
- GPT-4o / Claude等クローズドモデルのAPIを使いたい → Modal等の汎用サーバーレス
こんな人におすすめ / おすすめしない人
こんな人・チームにおすすめ
対象 | 理由 |
|---|---|
MLエンジニア・AI研究者 | GPU管理なしに大規模RL実験を反復できる。per-tokenで実験コストをコントロールしやすい |
AI系スタートアップ | インフラ構築コストなしに自社エージェントのファインチューニングができる |
自社ワークフロー向けカスタムモデルを作りたい企業 | 数学・コード・カスタマーサポートなど特定タスクに特化したエージェントをRLで最適化 |
RL研究者・大学研究室 | Environments Hubで既存環境を再利用しながら新アルゴリズムを検証できる |
オープンウェイトモデル活用を前提とする組織 | LlamaやQwenなどのモデルを自社データでポストトレーニングしたい場合に最適 |
おすすめしない人・ケース
対象 | 理由 |
|---|---|
GPT-4o / Claudeを直接RL訓練したいケース | クローズドモデルへの直接RL適用は現時点で不可 |
SFT(教師あり微調整)のみが目的 | GA時点ではagentic RL with LoRAのみ対応。SFTは「予定中」 |
ノーコード・GUI操作のみで完結させたい方 | CLIとTOMLファイルが主な操作手段のため、コマンドライン操作の知識が必要 |
日本語サポートが必須 | ドキュメント・UIともに英語のみ(2026年5月時点) |
機密性の高いモデルデータを扱う厳格なセキュリティ要件がある場合 | マルチテナント環境での共有ハードウェア利用。セキュリティポリシーページが現在非公開のため詳細確認が困難(2026-05-29時点) |
生成AIやAIエージェントの基礎から学びたい方は「生成AIとは」もご参照ください。
セキュリティ・利用上の注意事項
Prime Intellect Labを利用する前に、以下の注意事項を確認してください。
APIキーの管理
非インタラクティブモードでAPIキーがシェル履歴(.bash_history / .zsh_history等)に残る可能性があります(公式が注意事項として記載)。APIキーは必ず環境変数経由で渡してください。
# NG: コマンドラインに直接記述(履歴に残る)
prime login --api-key "sk-xxxx"
# OK: 環境変数で渡す
export PRIME_API_KEY="sk-xxxx"
prime loginマルチテナント環境の特性
LoRAデプロイメントは複数ユーザーで共有するハードウェア上で動作します。機密性の高いモデル重みやプロプライエタリなトレーニングデータを扱う場合は、共有インフラ利用のリスクを事前に評価してください。
セキュリティポリシーの確認
公式のセキュリティポリシーページ(/security-policy)は2026年5月29日時点で404(非公開)です。詳細なセキュリティポリシーについては、security@primeintellect.ai への問い合わせを推奨します。
オープンウェイトモデルの前提
Labはopen-weightsモデルのみに対応しています。モデル重みが公開されていることが前提となるため、利用するモデルのライセンス条件を各自で確認してください(Llama 3系はメタのLlama利用規約、Qwen系はQwenライセンスが適用)。
最新アップデート・リリース履歴
日付 | アップデート内容 |
|---|---|
2026年5月14日 | renderers(トークンレベルテンプレーティング)公開。アジェンティックRLのためのトークンレベルテンプレーティング機能を追加 |
2026年5月7日 | Lab GA(一般公開)正式リリース。10,000件以上のβジョブ実績でGA。14モデルラインナップ・per-tokenプライシング採用 |
2026年4月16日 | FrontierSWEのEnvironments Hub公開。SWE最前線タスク環境をHub上に公開 |
2026年4月16日 | Browserbaseパートナーシップ発表。ブラウザ・コンピュータ操作エージェント訓練環境を強化 |
2026年3月30日 | NVIDIAコラボレーション発表。NVIDIA GPU活用のオープンソース最前線モデルのagentic RLトレーニング強化 |
2026年2月10日 | Labプラットフォーム β公開(「Introducing Lab」ブログ) |
2026年1月 | INTELLECT-3(106B MoE)公開。Labのスタックで訓練・数学/コード/科学/推論でSOTA |
2025年3月 | $15Mシードラウンド(Founders Fund主導) |

出典: Prime Intellect 公式ブログ「Releasing Lab」
よくある質問(FAQ)
Q. Prime Intellect Labの利用に最低限必要なMLの知識は?
A. CLIの操作とTOMLファイルの編集ができれば基本的な訓練ジョブは実行できます。ただし、RLの報酬設計やLoRAのハイパーパラメータ(ランク・アルファ等)を適切に設定するためには、強化学習とトランスフォーマー系モデルの基礎知識があることが望ましいです。Environments Hubのサンプル環境から始めることで、最初のハードルを下げられます。
Q. ChatGPTやClaudeなどのAPIを呼び出すエージェントの訓練はできますか?
A. 現時点では対応していません。Labはopen-weightsモデル(LlamaやQwenなど公開された重みを持つモデル)のLoRAベースRL訓練を対象としています。クローズドモデルのAPIを呼び出すエージェントの訓練には対応していません。
Q. 訓練したモデルの権利はどうなりますか?
A. 公式の詳細なライセンスポリシーは確認中ですが、LoRAアダプターはユーザーが生成したものであるため、原則としてユーザーが権利を保有します。ただし、使用するベースモデルのライセンス(Llama・Qwen等)が適用されます。重要な商用利用の前には公式への確認を推奨します。
Q. 企業での本番利用(エンタープライズ向けプラン)はありますか?
A. 256 GPU以下の利用はLabの通常プランで対応できます。256 GPUを超えるスケールや、より詳細なSLA・サポートが必要な場合はLiquid Reserved Clusterや個別の見積もり対応となります。エンタープライズ向けプランの詳細は公式への問い合わせが必要です(2026年5月時点では詳細は非公開)。
Q. Environments Hubに独自の環境を追加する手順は?
A. OSSのverifiersライブラリを使って環境を実装し、Hubにアップロードできます。環境には①タスクデータセット、②モデル統合ハーネス(ツール・サンドボックス・コンテキスト管理)、③採点ルーブリックの3要素が必要です。詳細は公式ドキュメントを参照してください。
Q. SFT(教師あり微調整)はいつ対応しますか?
A. GA時点ではagentic RL with LoRAのみ対応しており、SFTはロードマップ上「予定中」と記載されています。正確なリリース時期は公式からのアナウンスをお待ちください。
まとめ:Prime Intellect Labの本質
Prime Intellect Labは、強化学習によるAIエージェント訓練を民主化するためのフルスタックインフラです。
従来、RLベースのエージェント訓練には膨大なGPUリソース・環境設計・インフラ管理のノウハウが必要でした。Labはこれを「GPU不要のSaaS + Environments Hubのコミュニティ資産 + per-tokenの従量課金」で解決しようとしています。β期間中の10,000件以上のジョブ実績という数字は、実際に使われているプラットフォームとしての信頼性を示しています。
一方で、GA時点では対応アルゴリズムがagentic RL with LoRAに限定され、SFT・DPOには未対応です。日本語ドキュメントもなく、CLIとTOMLが主な操作手段となるため、ある程度のMLバックグラウンドが必要です。
自社モデルのエージェント能力をRLで強化したいMLエンジニアやスタートアップにとって、現時点で最も試しやすい選択肢の一つであることは間違いありません。まずは小規模モデル(1B〜7B)とEnvironments Hubのサンプル環境を組み合わせて試してみることをおすすめします。
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

ChatGPT料金【日本円換算】2026年最新|全プラン比較・選び方
2026/03/31

AIエージェントフレームワーク比較12選【2026年最新】LangChain・CrewAI・Dify
2026/04/02

Claude料金【日本円】2026年最新|Free/Pro/Max/Team全プラン比較
2026/03/26

税務AI活用【2026年最新】AI-OCR自動仕訳・JDL評判・freee連携
2026/04/23

Grokとは?Agent Mode使い方・料金・ChatGPTとの比較【2026年最新】
2026/04/18

Anthropic × NEC 戦略提携とは?日本最大AI人材育成・Claude法人展開・政府系AIプロジェクトを解説
2026/04/26

