Meta、次世代AIモデル「Llama 4」を正式発表。Scoutは業界最長の1000万トークン対応
- 4月7日
- 読了時間: 5分

2025年4月、Metaは新たな大規模言語モデル(LLM)ファミリー「Llama 4」を発表した。マルチモーダル(画像+テキスト)対応を軸に設計されたLlama 4は、圧倒的な性能と柔軟性、そして驚異的なロングコンテキスト処理能力を備えた最新モデル群だ。
Llama 4の登場によって、マルチモーダル対応や超長文処理といった技術的進化は一段と加速しています。こうした先端AI技術は、研究開発の領域にとどまらず、業務現場でも急速に実用化が進んでる。
たとえば、問い合わせ対応の自動化を目的としたAIツール「AIbox」では、RAG(検索拡張生成)機能を活用し、社内のマニュアルやFAQ、ドキュメントをもとに高精度な応答を実現しています。Slackとの連携も可能で、人手では対応しきれない繰り返しの問い合わせにも、即時・正確に対応。こうした業務向けAIの導入により、カスタマーサポートやバックオフィス部門の生産性向上が現実のものとなりつつある。
最新AIモデルが業務効率にどう活かせるのか――「AIbox」のようなツールが、その一つの答えになるかもしれない。
3つのモデル構成:Behemoth / Maverick / Scout
Llama 4は、以下の3つのモデルから構成されている。
モデル名 | 概要 |
Llama 4 Behemoth | アクティブパラメータ数288B(2880億)、総パラメータ数2T(2兆)を誇る超巨大モデル。エキスパートMixture of Experts構成。蒸留用の「教師モデル」として設計され、現在プレビュー中。 |
Llama 4 Maverick | 実運用向けの主力モデル。170億のアクティブパラメータ、総パラメータ4000億。ネイティブでマルチモーダル対応し、100万トークンのコンテキストウィンドウをサポート。すでに利用可能。 |
Llama 4 Scout | 高速推論とコスト最適化に特化した軽量モデルながら、なんと1000万トークンのコンテキスト長を実現。業界最長のコンテキスト処理能力を誇る。こちらも利用可能。 |
ベンチマーク:Maverick / Scout / Behemoth
それぞれのモデルでのベンチマーク結果は以下の通りだ。
Llama 4 Maverick ベンチマーク(公式)
分野 | ベンチマーク名 | Llama 4 Maverick | GPT-4o(参考) |
推論コスト | 100万トークンあたり | $0.19~$0.49 | $4.38 |
画像推論 | MMMU / MathVista | 73.4 / 73.7 | 69.1 / 63.8 |
画像理解 | ChartQA / DocVQA | 90.0 / 94.4 | 85.7 / 92.8 |
コーディング | LiveCodeBench | 43.4 | 32.3 |
推論&知識 | MMLU Pro / GPQA | 80.5 / 69.8 | — / 53.6 |
多言語対応 | Multilingual MMLU | 84.6 | 81.5 |
長文処理 | MTOB(全体) | 50.8 / 46.7 | (128Kトークン制限) |
Llama 4 Scout ベンチマーク(公式)
分野 | ベンチマーク | Llama 4 Scout | Llama 3.3 70B | Llama 3.1 405B | Gemma 3 27B | Mistral 3.1 24B | Gemini 2.0 Flash-Lite |
画像推論 | MMMU | 69.4 | — | — | 64.9 | 62.8 | 68.0 |
MathVista | 70.7 | — | — | 67.6 | 68.9 | 57.6 | |
画像理解 | ChartQA | 88.8 | — | — | 76.3 | 86.2 | 73.0 |
DocVQA(テスト) | 94.4 | — | — | 90.4 | 94.1 | 91.2 | |
コーディング | LiveCodeBench | 32.8 | 33.3 | 27.7 | 29.7 | — | 28.9 |
知識・推論 | MMLU Pro | 74.3 | 68.9 | 73.4 | 67.5 | 66.8 | 71.6 |
GPQA Diamond | 57.2 | 50.5 | 49.0 | 42.4 | 46.0 | 51.5 | |
長文理解 | MTOB(半分の本) | 42.2 / 36.6 | — | (128K) | (128K) | (128K) | 42.3 / 35.1 |
MTOB(全体の本) | 39.7 / 36.3 | — | (128K) | (128K) | (128K) | 35.1 / 30.0 |
Scoutは、1000万トークンの長文処理が可能なモデルでありながら、驚くほど高い性能を維持しています。特に画像理解(ChartQA: 88.8、DocVQA: 94.4)はトップクラスのスコアで、軽量モデルとは思えない水準です。
長文処理ベンチマーク「MTOB」でも、他モデルが128Kトークン制限の中、Scoutは実際に10Mトークンを活かした評価が行われており、文脈保持力の高さが際立ちます。
一方で、LiveCodeBenchのスコア(32.8)は他モデルより控えめで、コーディング用途にはやや不向き。ただし、対話・文書・画像読解などを中心とする業務には非常に強力な選択肢となります。
Llama 4 Behemoth ベンチマーク(公式)
分野 | ベンチマーク | Llama 4 Behemoth | Claude Sonnet 3.7 | Gemini 2.0 Pro | GPT-4.5 |
コーディング | LiveCodeBench | 49.4 | — | 36.0 | — |
数学的推論 | MATH-500 | 95.0 | 82.2 | 91.8 | — |
知識・推論 | MMLU Pro | 82.2 | — | 79.1 | — |
GPQA Diamond | 73.7 | 68.0 | 64.7 | 71.4 | |
多言語能力 | Multilingual MMLU | 85.8 | 83.2 | — | 85.1 |
画像推論 | MMMU | 76.1 | 71.8 | 72.7 | 74.4 |
Behemothは、数学・知識・言語分野で現行のトップモデルを圧倒しています。特に数学系ベンチマーク「MATH-500」で95.0というスコアは圧巻で、Claude SonnetやGemini 2.0 Proを大きく上回る結果です。
また、LiveCodeBenchやMMLU Pro、GPQAなど幅広い分野で高得点を記録しており、まさに“蒸留用教師モデル”としてふさわしい性能です。
なお、現在はプレビュー段階のため、一般利用にはもう少し時間が必要です。
Chatbot Arenaでも高評価を記録
さらに、実利用の満足度を測るベンチマークとして注目されている「Chatbot Arena」でも、Llama 4 Maverickは極めて高い評価を受けている。

総合スコア1417点で全体2位(2025年4月時点)
オープンモデルとしては史上最高評価
「ハードプロンプト」「コーディング」「数学」「創造的ライティング」のカテゴリで全モデル中1位タイ
前世代のLlama 3 405B(スコア1268)から劇的な性能向上
「スタイル制御(Style Control)」カテゴリでも第5位にランクイン
Chatbot Arenaとは:ユーザーが2つのLLMを匿名で比較評価し、どちらの出力が優れているかを投票する形式のバトル評価プラットフォーム。大規模な利用者によるリアルな評価が得られるため、信頼性が高い指標として注目されている。
この結果からも、Maverickは単なる研究ベンチマーク上の強さだけでなく、実使用における会話品質・応答の知性・創造力においても非常に優れていることが裏付けられた。GPT-4oやClaude 3.5といった商用モデルとも十分に戦える水準にあると言える。
Comments