AIの未来をリードする—メルマガ登録で最新情報をゲット！

AIの未来をリードする
メルマガ登録で最新情報をゲット！

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません

Meta、次世代AIモデル「Llama 4」を正式発表。Scoutは業界最長の1000万トークン対応

2025年4月7日
読了時間: 5分

2025年4月、Metaは新たな大規模言語モデル（LLM）ファミリー「Llama 4」を発表した。マルチモーダル（画像＋テキスト）対応を軸に設計されたLlama 4は、圧倒的な性能と柔軟性、そして驚異的なロングコンテキスト処理能力を備えた最新モデル群だ。

Llama 4の登場によって、マルチモーダル対応や超長文処理といった技術的進化は一段と加速しています。こうした先端AI技術は、研究開発の領域にとどまらず、業務現場でも急速に実用化が進んでる。

たとえば、問い合わせ対応の自動化を目的としたAIツール「AIbox」では、RAG（検索拡張生成）機能を活用し、社内のマニュアルやFAQ、ドキュメントをもとに高精度な応答を実現しています。Slackとの連携も可能で、人手では対応しきれない繰り返しの問い合わせにも、即時・正確に対応。こうした業務向けAIの導入により、カスタマーサポートやバックオフィス部門の生産性向上が現実のものとなりつつある。

最新AIモデルが業務効率にどう活かせるのか――「AIbox」のようなツールが、その一つの答えになるかもしれない。

3つのモデル構成：Behemoth / Maverick / Scout

Llama 4は、以下の3つのモデルから構成されている。

モデル名	概要
Llama 4 Behemoth	アクティブパラメータ数288B（2880億）、総パラメータ数2T（2兆）を誇る超巨大モデル。エキスパートMixture of Experts構成。蒸留用の「教師モデル」として設計され、現在プレビュー中。
Llama 4 Maverick	実運用向けの主力モデル。170億のアクティブパラメータ、総パラメータ4000億。ネイティブでマルチモーダル対応し、100万トークンのコンテキストウィンドウをサポート。すでに利用可能。
Llama 4 Scout	高速推論とコスト最適化に特化した軽量モデルながら、なんと1000万トークンのコンテキスト長を実現。業界最長のコンテキスト処理能力を誇る。こちらも利用可能。

ベンチマーク：Maverick / Scout / Behemoth

それぞれのモデルでのベンチマーク結果は以下の通りだ。

Llama 4 Maverick ベンチマーク（公式）

分野	ベンチマーク名	Llama 4 Maverick	GPT-4o（参考）
推論コスト	100万トークンあたり	$0.19～$0.49	$4.38
画像推論	MMMU / MathVista	73.4 / 73.7	69.1 / 63.8
画像理解	ChartQA / DocVQA	90.0 / 94.4	85.7 / 92.8
コーディング	LiveCodeBench	43.4	32.3
推論＆知識	MMLU Pro / GPQA	80.5 / 69.8	— / 53.6
多言語対応	Multilingual MMLU	84.6	81.5
長文処理	MTOB（全体）	50.8 / 46.7	（128Kトークン制限）

Llama 4 Scout ベンチマーク（公式）

分野	ベンチマーク	Llama 4 Scout	Llama 3.3 70B	Llama 3.1 405B	Gemma 3 27B	Mistral 3.1 24B	Gemini 2.0 Flash-Lite
画像推論	MMMU	69.4	—	—	64.9	62.8	68.0
	MathVista	70.7	—	—	67.6	68.9	57.6
画像理解	ChartQA	88.8	—	—	76.3	86.2	73.0
	DocVQA（テスト）	94.4	—	—	90.4	94.1	91.2
コーディング	LiveCodeBench	32.8	33.3	27.7	29.7	—	28.9
知識・推論	MMLU Pro	74.3	68.9	73.4	67.5	66.8	71.6
	GPQA Diamond	57.2	50.5	49.0	42.4	46.0	51.5
長文理解	MTOB（半分の本）	42.2 / 36.6	—	（128K）	（128K）	（128K）	42.3 / 35.1
	MTOB（全体の本）	39.7 / 36.3	—	（128K）	（128K）	（128K）	35.1 / 30.0

Scoutは、1000万トークンの長文処理が可能なモデルでありながら、驚くほど高い性能を維持しています。特に画像理解（ChartQA: 88.8、DocVQA: 94.4）はトップクラスのスコアで、軽量モデルとは思えない水準です。

長文処理ベンチマーク「MTOB」でも、他モデルが128Kトークン制限の中、Scoutは実際に10Mトークンを活かした評価が行われており、文脈保持力の高さが際立ちます。

一方で、LiveCodeBenchのスコア（32.8）は他モデルより控えめで、コーディング用途にはやや不向き。ただし、対話・文書・画像読解などを中心とする業務には非常に強力な選択肢となります。

Llama 4 Behemoth ベンチマーク（公式）

分野	ベンチマーク	Llama 4 Behemoth	Claude Sonnet 3.7	Gemini 2.0 Pro	GPT-4.5
コーディング	LiveCodeBench	49.4	—	36.0	—
数学的推論	MATH-500	95.0	82.2	91.8	—
知識・推論	MMLU Pro	82.2	—	79.1	—
	GPQA Diamond	73.7	68.0	64.7	71.4
多言語能力	Multilingual MMLU	85.8	83.2	—	85.1
画像推論	MMMU	76.1	71.8	72.7	74.4

Behemothは、数学・知識・言語分野で現行のトップモデルを圧倒しています。特に数学系ベンチマーク「MATH-500」で95.0というスコアは圧巻で、Claude SonnetやGemini 2.0 Proを大きく上回る結果です。

また、LiveCodeBenchやMMLU Pro、GPQAなど幅広い分野で高得点を記録しており、まさに“蒸留用教師モデル”としてふさわしい性能です。

なお、現在はプレビュー段階のため、一般利用にはもう少し時間が必要です。

Chatbot Arenaでも高評価を記録

さらに、実利用の満足度を測るベンチマークとして注目されている「Chatbot Arena」でも、Llama 4 Maverickは極めて高い評価を受けている。

総合スコア1417点で全体2位（2025年4月時点）
オープンモデルとしては史上最高評価
「ハードプロンプト」「コーディング」「数学」「創造的ライティング」のカテゴリで全モデル中1位タイ
前世代のLlama 3 405B（スコア1268）から劇的な性能向上
「スタイル制御（Style Control）」カテゴリでも第5位にランクイン

Chatbot Arenaとは：ユーザーが2つのLLMを匿名で比較評価し、どちらの出力が優れているかを投票する形式のバトル評価プラットフォーム。大規模な利用者によるリアルな評価が得られるため、信頼性が高い指標として注目されている。

この結果からも、Maverickは単なる研究ベンチマーク上の強さだけでなく、実使用における会話品質・応答の知性・創造力においても非常に優れていることが裏付けられた。GPT-4oやClaude 3.5といった商用モデルとも十分に戦える水準にあると言える。

054-686-5596

10:00〜18:00 年末年始を除く

AIの未来をリードする—メルマガ登録で最新情報をゲット！

AIの未来をリードする
メルマガ登録で最新情報をゲット！

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません

Meta、次世代AIモデル「Llama 4」を正式発表。Scoutは業界最長の1000万トークン対応

3つのモデル構成：Behemoth / Maverick / Scout

ベンチマーク：Maverick / Scout / Behemoth

Llama 4 Maverick ベンチマーク（公式）

Llama 4 Scout ベンチマーク（公式）

Llama 4 Behemoth ベンチマーク（公式）

Chatbot Arenaでも高評価を記録

コメント

記事一覧

054-686-5596

10:00〜18:00 年末年始を除く

AIの未来をリードする—メルマガ登録で最新情報をゲット！

AIの未来をリードする メルマガ登録で最新情報をゲット！

AIの最新トレンドや活用事例、業界の動向を配信します。 ・2週間に1回配信します ・メルマガの購読はワンクリックで解除できます ・メールアドレスが第三者に共有されることはありません

3つのモデル構成：Behemoth / Maverick / Scout

ベンチマーク：Maverick / Scout / Behemoth

Llama 4 Maverick ベンチマーク（公式）

Llama 4 Scout ベンチマーク（公式）

Llama 4 Behemoth ベンチマーク（公式）

Chatbot Arenaでも高評価を記録

コメント

記事一覧

AIの未来をリードする
メルマガ登録で最新情報をゲット！

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません