LLM-jp-4とは｜国立情報学研究所・約12兆トークン学習の国産LLMを徹底解説

LLM-jp-4は、国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）が、LLM-jpコミュニティと共同で開発した国産オープンソースの大規模言語モデルです。 2026年4月3日に公開され、約12兆トークンの事前学習と日本語データの強化、Apache License 2.0でのモデル重み配布を特徴としています。

この記事では、LLM-jp-4の公式スペック、できること、料金とライセンス、使い方、他モデルとの違い、そして自社導入の判断材料までを2026年4月時点の公式情報をもとに整理します。

この記事でわかること

LLM-jp-4の基本スペックとモデルラインナップ（8B／32B-A3B MoE／VLベータ）
約12兆トークン学習と日本語MT-Benchで報告された性能の意味
商用利用可（Apache 2.0）・API提供なしというライセンスと運用上の前提
Hugging Face経由でローカル推論する最小構成の流れ
Sarashina 2／tsuzumi 2／PLaMo／Swallowなど他の国産LLMとの違い
向いている用途・向いていない用途

想定読者

日本語に強いオープンソースLLMを自社基盤や研究用途で検討しているエンジニア・AI担当
データ主権・オンプレ推論を重視する企業でLLM導入を進めるPM
LLM-jpシリーズやほかの国産LLMとの違いを整理したいリサーチャー

LLM-jp-4の基本情報

LLM-jp-4は、「日本で作り、日本のデータで強化し、誰でも商用利用できる」 という方針を貫いた国産オープンソースLLMの最新世代です。LLM-jp-3（最大172B）を経て、2026年4月に8BとMoE型32B-A3Bの2系統で公開されました。

開発元と公開日

LLM-jp-4は、国立情報学研究所（NII）傘下の大規模言語モデル研究開発センター（LLMC）が、産官学連携コミュニティ「LLM勉強会（LLM-jp）」と協働で開発したモデルです。LLM-jpには2026年時点で国内の大学・研究機関・企業から2,600名以上が参加しています。

出典: LLM-jp 公式サイト（国立情報学研究所）

項目	内容
正式名称	LLM-jp-4
開発元	国立情報学研究所（NII）／大規模言語モデル研究開発センター（LLMC）
協力体制	LLM勉強会（LLM-jp）、2,600名以上の研究者・技術者
公開日	2026年4月3日
提供形態	Hugging Faceでモデル重みを配布（API提供なし）
ライセンス	Apache License 2.0（商用利用可）
学習計算資源	ABCI 3.0（産業技術総合研究所／NVIDIA H200 × 6,128基）
公式サイト	https://llm-jp.nii.ac.jp/
モデル配布	https://huggingface.co/llm-jp

LLM-jpシリーズのなかでの位置付け

LLM-jpは2023年から継続的にモデルを公開してきた日本発のオープンLLMプロジェクトで、LLM-jp-4はその第4世代にあたります。公式に公開情報がある系譜を整理すると以下のようになります。

世代	主な公開時期	代表モデル	特徴
LLM-jp-1 系	2023年	13B	初期世代。日英混合の事前学習
LLM-jp-3 系	2024年9月〜12月	172B（2024年12月正式版）	GPT-3.5超えを標榜した大型Denseモデル
LLM-jp-3.1 系	2025年	8×13B MoEほか	指示追従性能を改善（8×13B-instruct4でGPT-4超え報告）
LLM-jp-4 系	2026年4月3日	8B／32B-A3B MoE／VLベータ	日本語コーパス強化＋MoE採用、Apache 2.0

LLM-jp-3は「とにかく大きく」する方向で172Bを公開しましたが、LLM-jp-4は大型化より効率化（MoE採用）と日本語データの質を重視した設計に舵を切っています。自前ホスティングのハードルを下げつつ日本語能力を底上げする、という実運用寄りの方針が見て取れます。

提供形態とライセンス

LLM-jp-4はモデル重みそのものがHugging Faceで公開されており、自前の推論環境で動かす前提のプロジェクトです。公式APIサービスは提供されていません。

ライセンス: Apache License 2.0（Hugging Faceモデルカードで確認）
商用利用: 可。再配布・改変・商用利用ともに制限は緩い
学習コーパス: 一部はライセンス上の理由で非公開。ただしモデル自体はApache 2.0で利用可能
追加契約: 不要。モデルカードの利用規約に同意すればダウンロード可能

クラウドAPI経由で気軽に呼び出すタイプではなく、自社のGPU基盤やクラウドGPU、あるいはオンプレサーバーで推論することを前提としたモデルであることを最初に押さえておく必要があります。

LLM-jp-4のモデルラインナップ

LLM-jp-4は用途ごとに複数のバリエーションが公開されています。8B Denseと32B-A3B MoEの2系統が軸で、それぞれにbase・instruct・thinkingの派生モデルが用意されている構造です。

公開済みモデル一覧（2026年4月3日時点）

モデル名	総パラメータ	アクティブ	アーキテクチャ	主な用途
llm-jp-4-8b-base	約8.59B	8.59B（Dense）	Llama系	事前学習のみ。研究・追加学習用
llm-jp-4-8b-instruct	約8.59B	8.59B（Dense）	Llama系	SFT＋DPOで指示応答に調整済み
llm-jp-4-8b-thinking	約8.59B	8.59B（Dense）	Llama系	思考モード対応。Chain-of-Thought
llm-jp-4-32b-a3b-base	約321億	約38億	Qwen3-MoE系	MoE事前学習モデル
llm-jp-4-32b-a3b-thinking	約321億	約38億	Qwen3-MoE系	MoE＋思考モード
llm-jp-4-vl-9b-beta	約9B（LLM 8.6B＋Vision 0.4B）	-	SigLIP2＋LLM-jp-4-8b-instruct	マルチモーダル（画像＋文）ベータ版

共通スペック

ラインナップ全体で共通する仕様は以下の通りです。

コンテキスト長: 65,536トークン（約6万5千トークンの入出力に対応）
データ型: BF16
トークナイザー: llm-jp-tokenizer v4.0（Hugging Face Unigram byte-fallback方式）
チャットテンプレート: OpenAI Harmonyフォーマットと互換（ただし付属トークナイザーの使用が必須）

8B Denseモデル（llm-jp-4-8b）

8BモデルはLlama系アーキテクチャを採用した、扱いやすい標準サイズのモデルです。

層数: 32 / Hidden size: 4,096 / ヘッド数: 32
埋め込みパラメータ: 約8億、非埋め込み: 約77.8億
1枚のGPUで動作可能（BF16推論で17GB以上のVRAMが目安）

H100/H200であれば余裕を持って動作し、RTX 4090（24GB）クラスでも実用的な速度で動きます。「まず試したい」「プロトタイプを作りたい」というフェーズに向いています。

32B-A3B MoEモデル（llm-jp-4-32b-a3b）

32B-A3Bは、Qwen3-MoE系のアーキテクチャを採用した混合エキスパート（Mixture-of-Experts）モデルです。総パラメータは321億ある一方、1トークンの推論で活性化するのは約38億パラメータという設計で、大きい表現力と小さい推論コストを両立しています。

層数: 32 / Hidden size: 2,560 / ヘッド数: 40
Expert数: 128、アクティブExpert数: 8
推論コストはおよそ3.8B相当、モデル全体のメモリは32B相当

メモリは32B級モデル相当を必要としますが、トークンあたりの演算量は4B級で済むため、「Qwenなど他の8Bモデルよりも速く、しかし32B級の表現力がほしい」というユースケースに刺さる設計です。

thinkingモデルの特徴

thinking版は、OpenAIのreasoning系モデルなどと同じ系統のChain-of-Thought（思考プロセス）に対応したバリアントです。

reasoning_effortパラメータで3段階（low / medium / high）の思考深度を制御
内部で推論ステップを展開し、最終回答の前に「考え」を挟める
日本語MT-Benchでlow=7.23、medium=7.54（8Bモデル）

「複雑な推論を含む回答」「計算や論理展開」「コード生成のステップバイステップ説明」など、思考過程を必要とするタスクで優位性があります。

LLM-jp-4-VL（ビジョンランゲージ版・ベータ）

LLM-jp-4-VLは、画像理解に対応したマルチモーダル派生モデルで、2026年4月時点ではベータ版扱いです。

ビジョンエンコーダー: SigLIP2（約0.4B）
言語モデル: llm-jp-4-8b-instruct（約8.6B）
画像と日本語文の混在入力に対応
正式版とJagleデータセットは近日公開予定

OCRや図表解釈を日本語モデルで完結させたい研究・評価用途であれば現時点でも試せますが、本番ワークロードに組み込むなら正式版を待つのが安全です。

学習データとベンチマーク性能

LLM-jp-4の最大の売りは、約12兆トークンの学習量と、日本語MT-BenchでGPT-4oを上回る報告です。ただし、これらは特定条件下の数値であり、意味を正しく把握しておく必要があります。

学習トークン数と日本語データの比率

NIIの公式プレスリリースでは「約12兆トークンで事前学習した」と発表されています。モデルカード上の表記と合わせると内訳は次の通りです。

学習トークン合計: 約11.7兆トークン（事前学習約10.5兆＋中間学習1.2兆）※NIIは「約12兆」と発表
事前学習コーパス総計（llm-jp-corpus v4.1）: 約19.5兆トークン
- 日本語: 約6,880億トークン
- 英語: 約17.8兆トークン
- 中国語・韓国語など他言語: 約8,500億トークン
- プログラムコード: 約2,000億トークン

コーパス全体では英語のほうが圧倒的に多いものの、日本語トークンを7,000億近く用意している点が日本語特化LLMとしての差別化になっています。データソースにはインターネット公開データに加え、政府・国会文書、合成データ、NINJAL Web Japanese Corpus（whole-NWJC）など日本語の信頼性ある大規模コーパスが含まれます。

事後学習（Post-training）

一般利用向けモデル（instruct／thinking）では、事前学習の後に次の工程が行われています。

SFT（Supervised Fine-Tuning）: 日英22データセットを使った指示追従学習
DPO（Direct Preference Optimization）: 人間の選好に合わせた調整
強化学習（RLHF）は不使用

「RLHFなしでSFT＋DPO」という構成は、オープンモデルで近年よく見られる軽量な後処理パターンです。過学習や方向性のブレを抑えやすく、再現性を確保しやすいというメリットがあります。

ベンチマーク性能（公式発表）

出典: LLM-jp 公式サイト（国立情報学研究所）

公式発表されている主なスコアは以下の通りです。

モデル	日本語MT-Bench	英語MT-Bench
LLM-jp-4 32B-A3B	7.82	7.86
LLM-jp-4 8B	7.54	7.79
GPT-4o（比較）	7.29	—
Qwen3-8B（比較）	7.14	—

「GPT-4o超え」の正確な意味

LLM-jp-4の日本語MT-BenchスコアがGPT-4oを上回ったという結果は事実ですが、MT-Benchは対話型タスクに特化した評価であり、あらゆる日本語タスクでGPT-4oを超えたという意味ではありません。

実務で判断するときは、次の点を踏まえるのが適切です。

日本語の自然な対話や指示応答では、GPT-4oや他のオープンモデルに劣らない水準にあると期待できる
一方で、推論・数学・コーディング・マルチモーダルなど広範なベンチマークではGPT-4oのほうが総合力は高い
長文脈（65K以上）や複雑なエージェント挙動は、専用設計のフラッグシップモデルのほうが強い場合が多い

「日本語の対話と指示応答でGPT-4oに十分競合できるオープンモデル」と位置付けて検証するのが、誤解を招かない評価姿勢です。

学習計算環境

LLM-jp-4は、産業技術総合研究所が運用するスーパーコンピューターABCI 3.0で学習されました。

NVIDIA H200 GPU × 6,128基
766台の計算ノード、ノードあたり2TB DDR5メモリ
InfiniBand高速ネットワーク、75PBの共有ストレージ

国産の公開LLMとしては最大級の計算資源投入であり、国の計算基盤を使って日本語LLMを継続的に更新するというプロジェクト構造が、LLM-jpシリーズの持続性を支えています。

できることと主な用途

LLM-jp-4は汎用的な生成AIとして幅広く使えますが、日本語テキストの理解・生成と、オンプレ／クローズド環境での運用に特に強みがあります。

主なユースケース

用途	特徴	推奨モデル
日本語チャットボット・カスタマーサポート	日本語MT-Benchで高スコア、Apache 2.0で商用利用可	llm-jp-4-8b-instruct
社内文書の要約・検索（RAG基盤）	65Kトークンのコンテキスト、オンプレでデータ主権を守れる	llm-jp-4-8b-instruct／32b-a3b-thinking
日本語文書のQA・問い合わせ対応	政府・国会文書・日本語コーパス比率が高い	llm-jp-4-8b-instruct
研究・LLMの追加学習ベース	Apache 2.0、学習データも一部公開で透明性が高い	llm-jp-4-8b-base／32b-a3b-base
コード生成・ステップ推論	thinking版＋reasoning_effort制御	llm-jp-4-8b-thinking／32b-a3b-thinking
日本語OCR・画像＋文の処理	SigLIP2ベースのVL対応（ベータ）	llm-jp-4-vl-9b-beta

base／instruct／thinking／VLの使い分け

4種類のバリエーションの使い分けは、以下の観点で判断すると迷いません。

base: 追加学習（継続事前学習や独自SFT）の起点として使う。本番でそのまま使うモデルではない
instruct: 社内チャット、RAG、業務アプリのバックエンドなど、一般的な指示応答ユースケースのデフォルト
thinking: 推論ステップが必要なタスク（計算、論理展開、コードデバッグ、高度な要約）。reasoning_effort=mediumから試すのが妥当
VL: 画像理解を日本語で統一したい研究／評価用途。正式版まで本番投入は避ける

料金・運用コスト

LLM-jp-4そのものは無料ですが、動かすためのインフラコストは自社負担になる点が、API課金型のモデルとの最大の違いです。

モデル自体の料金

モデルダウンロード料金: 無料（Hugging Face経由）
API利用料金: 公式API提供なし
ライセンス費用: Apache 2.0のため追加契約不要
商用利用: 可

実運用コストの考え方

LLM-jp-4を実運用する場合、コストは「自前GPU基盤のTCO」か「クラウドGPUの時間課金」に置き換わります。

運用パターン	目安	向いているケース
自社オンプレGPU（H100／H200）	初期投資が高いが、トークン単価は長期で最安	大量の長期運用、機密情報を一切社外に出せない業種
クラウドGPU（AWS／GCP／Azure／さくら／ABCI）	H100 1枚あたり時間課金。従量課金	PoCや中規模運用、スケールが読めないフェーズ
国内LLM推論サービス	事業者によるホスティング	自前運用を避けたいが国産モデルを使いたい

「APIコストは発生しないが、GPU時間は発生する」という構造を最初に理解しておくことが、導入判断のポイントです。

参考：GPU要件の目安（非公式検証から）

公式の推論VRAM要件は明示されていないものの、非公式検証やHugging Faceコミュニティの情報から、次の目安が共有されています。

8Bモデル（BF16）: 約17GB以上のVRAM。RTX 4090／A100 40GB／L40Sなどで実用可能
8Bモデル（Int4量子化）: 8GB程度まで削減可能
32B-A3B（MoE、BF16）: 総パラメータ32B相当のVRAMを必要とするため、H100／H200 1枚、またはA100 80GB×2枚以上が実用目安
vLLMなどでKVキャッシュを含める場合は、上記に加えてコンテキスト長に応じた追加メモリが必要

使い方（Hugging Face経由のクイックスタート）

LLM-jp-4はAPI提供がないため、Hugging Faceからモデルをダウンロードして自前の推論環境で動かすのが基本の使い方になります。本番向けにはvLLMなどの高速推論エンジンを組み合わせるのが一般的です。

環境の準備

最小構成はPython 3.10以上とPyTorch、Transformersが動く環境です。

GPUマシン（VRAM 17GB以上推奨。クラウドGPUでも可）
Python 3.10以上、PyTorch 2.x、Transformers 4.40以上
Hugging Faceアカウント（モデルカード同意のため）
公式サンプル: llm-jp/llm-jp-4-cookbook

Hugging Face Transformersで動かす最小例

公式cookbookの流れをベースにすると、次のようなステップでinstructモデルを呼び出せます。

pip install transformers torch accelerate で依存関係をインストール
from transformers import AutoTokenizer, AutoModelForCausalLM をインポート
llm-jp/llm-jp-4-8b-instruct を指定してトークナイザーとモデルをロード
チャット形式のメッセージを構築し、apply_chat_templateで整形
model.generate で推論、tokenizer.decode で出力を取得

OpenAI Harmony互換のチャットテンプレートが用意されているため、ChatGPT系のAPI呼び出しコードからの移植がしやすいのが利点です。付属のllm-jp-tokenizer v4.0を必ず使う点には注意してください（openai-harmonyライブラリでの直接トークン化は非対応）。

本番向けの推論エンジン

小規模な検証が済んだら、推論を高速化するために次のランタイムを検討します。

vLLM: OpenAI互換APIエンドポイントを立てられる。スループット重視の本番向け
TGI（Text Generation Inference）: Hugging Face製。量子化やテンソル並列に対応
llama.cpp／Ollama系: GGUF量子化済みが出回れば、個人・エッジ推論にも活用可能

thinkingモデルを使うときのポイント

thinking版を呼び出すときは、推論深度のパラメータを明示的に指定します。

reasoning_effort="low": 軽い思考。応答は速い
reasoning_effort="medium": バランス型（公式ベンチマークはここがベース）
reasoning_effort="high": 深く考える。応答は遅いが推論品質は最も高い

まずはmediumで試して、要件に応じてlow／highに振り分けるのが現実的です。

他の国産LLM・海外モデルとの違い

LLM-jp-4は、「産官学連携でつくられたApache 2.0の国産オープンLLM」という唯一性を持ちますが、他の国産LLMや海外オープンモデルとは得意領域が異なります。

出典: LLM-jp Hugging Face 公式コレクション

主要な国産LLMとの比較

モデル	開発元	規模	ライセンス／提供形態	特徴
LLM-jp-4	NII／LLMC（産官学）	8B ／ 32B-A3B MoE	Apache 2.0、重み配布	フルオープン。学習データの透明性、日本語MT-Bench上位
Sarashina 2	SoftBank	最大8×70B MoE（約460B）、1T級を開発中	商用可ライセンス	日本語特化、SoftBankクラウドとの統合
tsuzumi 2	NTT	600M〜7B	商用ライセンス	軽量・エッジ志向、NTTビジネスソリューション連携
PLaMo	Preferred Networks	13B／100B	PFN提供	日英バイリンガル、日本語ベンチマークで高評価
Swallow	東京科学大学（旧：東工大）ほか	各種	研究用途中心	Llama／Qwen系モデルへの日本語継続事前学習

LLM-jp-4の強み

他モデルと比べたLLM-jp-4の明確な強みは次の3点に集約されます。

フルオープン: モデル重み・トークナイザー・一部の学習コーパス・事後学習レシピまで公開
産官学連携の継続性: NIIが主導し、ABCI 3.0で学習できる枠組みがあるため今後も世代更新が期待できる
Apache 2.0: 商用利用の制約が非常に緩い

「個社の商用ライセンスに縛られたくない」「学習プロセスの中身を確認したい」「将来の追加学習に自由にモデルを使いたい」という企業・研究者にとっては、最も選びやすい国産LLMです。

LLM-jp-4の弱み

一方で、実務適用を考えると次の点は他モデルに劣る、あるいは注意が必要です。

公式APIがない: 使うにはGPU基盤の準備が必須。AWS Bedrock／Azure OpenAIのようにすぐ呼び出せる体験ではない
安全性チューニング未完了: 公式モデルカードで「出力が人間の意図・安全性観点に調整されていない」と明記されている
マルチモーダルはベータ: VL正式版は2026年度中の予定
商用ホスティング・サポート網は民間LLMより薄い: 企業向けSLAを結びたい場合はSarashina・tsuzumi・PLaMoのほうが選びやすい場面もある

海外オープンモデルとの違い

海外のオープンモデル（Llama 4／Qwen3／Gemma 4／DeepSeek V4など）と比較すると、LLM-jp-4は日本語ベンチマークに寄せて最適化された国産モデルという色がはっきり出ます。

英語・中国語・コーディングなど汎用性能の最大化ではなく、日本語対話品質の底上げにリソースを投じている
総パラメータ／学習トークン数では海外トップモデル（40T規模）に劣るが、日本語の単位トークンあたりの効率で勝負する設計
ライセンスの緩さ（Apache 2.0）は海外モデルと同等〜有利

英語主体のグローバル展開ならLlama 4／Qwen3、日本語主体で国内向けならLLM-jp-4、という棲み分けが実務的です。

導入時の注意点と制約

LLM-jp-4を実プロジェクトに組み込む前に、公式が明示しているいくつかの制約を確認しておく必要があります。

安全性チューニングが未完了であること

公式モデルカードには、次の主旨の注意書きが明記されています。

The models released here are in the early stages of our research and development and have not been tuned to ensure outputs align with human intent and safety considerations.

（現時点のモデルは研究開発の初期段階であり、出力が人間の意図や安全性に沿うようにチューニングされていない）

本番アプリケーションに組み込む際には、入力のモデレーション、出力のフィルタリング、NGワードや誤情報ガードレールの実装を前提に設計することが推奨されます。

データ取り扱いとプライバシー

一方で、モデル重みをローカルで動かせる＝外部へデータを送信せずに推論できるという点は、クラウドAPI型LLMにはない大きな利点です。

医療・金融・法務・行政など、外部送信が制限される業種でも利用しやすい
オンプレ／VPC内で完結する推論構成を組みやすい
学習データにインターネット公開データが含まれるため、機微情報の意図しない記憶リスクは他のLLMと同様に考慮が必要

「自社データを守りながら日本語LLMを使いたい」というニーズには、LLM-jp-4の運用モデルが素直に噛み合います。

トークナイザーとHarmonyフォーマット

チャットテンプレートはOpenAI Harmonyフォーマットと互換性がありますが、付属のllm-jp-tokenizer v4.0を必ず使う必要があります。openai-harmonyライブラリでの直接トークン化は非対応のため、テンプレートを流用する場合もトークナイズはllm-jp側で行う点に注意してください。

今後のロードマップ

LLM-jpの公式発表によると、2026年度中に以下の拡張が予定されています。

LLM-jp-4 32Bモデル（DenseのMoEなしバージョン）
LLM-jp-4 332B-A31Bモデル（総3,320億・アクティブ310億のMoE）
軽量版モデル（より小さいパラメータのバリエーション）
LLM-jp-4-VL正式版とJagleデータセットの公開

特に332B-A31Bは、国産オープンLLMとしては過去最大クラスの規模になる見通しで、ABCI 3.0のGPU資源をフルに活かす次の一手として注目されています。現時点（2026年4月）では公開日時は確定していないため、公式サイト（llm-jp.nii.ac.jp）のアナウンスを追いかけるのが確実です。

こんな方に向いています

LLM-jp-4は、ニーズと運用体制がかみ合うかどうかで「刺さる・刺さらない」がはっきり分かれます。

向いているケース

日本語業務のLLMを自社で運用したい企業: オンプレGPUやクラウドGPUでデータを外に出さずに使いたい
研究・追加学習の起点にしたい大学・研究機関: Apache 2.0で改変・再配布が自由
商用利用の制約を嫌うスタートアップ: ライセンス監査コストが低く、自社プロダクトへの組み込みがしやすい
日本語RAG・チャットボット基盤を構築したい開発チーム: 日本語MT-Benchで高スコア、65Kトークンの長文処理
国の計算基盤で更新され続ける国産LLMを追いたい企業: 持続性のある国産シリーズを基盤に据えたい

向いていないケース

APIコールだけで済ませたいケース: LLM-jp-4には公式APIがなく、自前またはサードパーティのホスティングが必須
安全性チューニング済みの即戦力を求めるケース: そのままエンドユーザーに出すにはガードレール設計が別途必要
英語特化のタスク・海外マルチリンガルを最重要視するケース: Llama 4／Qwen3／Gemma 4など英語主体モデルのほうが汎用性が高いことが多い
マルチモーダルを本番前提で使いたいケース: VLはまだベータ版、正式版待ち
企業向けSLAや24/7サポートを前提にしたいケース: 産官学プロジェクトであり、商用ベンダーのSLA契約とは異なる

生成AIツールや国産LLMの選定をより深く進める際は、以下の関連記事も参考にしてください。

よくある質問（FAQ）

Q1. LLM-jp-4は無料で使えますか？

はい。モデル重みはHugging Faceで無料公開されており、ライセンスはApache License 2.0で商用利用も可能です。ただし公式APIは提供されていないため、実際に動かすGPU（自社オンプレまたはクラウド）のコストは別途必要です。

Q2. GPT-4oより高性能という理解で合っていますか？

日本語MT-Benchという対話特化ベンチマークでは、LLM-jp-4 8B（7.54）と32B-A3B（7.82）がGPT-4o（7.29）を上回ったと公式が発表しています。ただし、コーディング・推論・マルチモーダルなど広範なベンチマーク全体でGPT-4oを超えるという意味ではありません。日本語対話と指示応答で遜色ないオープン代替として評価するのが正確です。

Q3. どのモデルから試せばよいですか？

一般的な用途ならllm-jp-4-8b-instructから始めるのがおすすめです。1枚のGPUで動かせ、チャットや要約などの基本的な指示応答に調整済みです。推論ステップが必要なタスクに移るときにllm-jp-4-8b-thinking、より高い表現力が必要になったらllm-jp-4-32b-a3b-thinkingを検討する順序が自然です。

Q4. 自社サーバーやオンプレで動かせますか？

はい、それがLLM-jp-4の主な運用方法です。モデル重みをダウンロードし、Hugging Face TransformersやvLLMなどの推論エンジンで自社GPUサーバー上で動かせます。外部にデータを送信せずに推論を完結できるため、医療・金融・行政など機密データを扱う領域でも利用しやすい構造です。

Q5. 法律・医療・金融のプロダクトにそのまま使えますか？

そのままエンドユーザーに出す用途には推奨されません。 公式モデルカードで安全性チューニングが未完了であると明記されており、ハルシネーションや不適切な出力のリスクがあります。規制業種で使う場合は、入力モデレーション、出力フィルタリング、ガードレール、人手レビューなどの追加設計を前提にしてください。

Q6. LLM-jp-3やLLM-jp-3.1から乗り換えるメリットはありますか？

メリットはあります。LLM-jp-4はMoE採用で推論コストが下がっており、日本語コーパスも刷新されているため、同じGPU資源でより良い日本語応答が期待できます。一方で、LLM-jp-3.1の8×13B-instructをすでにチューニング済みで使っている場合は、移行検証（既存プロンプトの挙動差、追加学習モデルの再作成）を個別に行うのが安全です。

Q7. LLM-jp-4-VL（画像対応版）は本番に使えますか？

2026年4月時点ではベータ版のため、本番投入は推奨されません。 評価・研究用途であれば使えますが、正式版とJagleデータセットの公開待ちが現実的です。業務でマルチモーダルを使う必要がある場合は、ほかのマルチモーダルLLMと併用する構成も検討できます。