top of page

AIの未来をリードする—メルマガ登録で最新情報をゲット!

AIの未来をリードする
メルマガ登録で最新情報をゲット!

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません

Meta、次世代AIモデル「Llama 4」を正式発表。Scoutは業界最長の1000万トークン対応

  • 4月7日
  • 読了時間: 5分
Meta Llama

2025年4月、Metaは新たな大規模言語モデル(LLM)ファミリー「Llama 4」を発表した。マルチモーダル(画像+テキスト)対応を軸に設計されたLlama 4は、圧倒的な性能と柔軟性、そして驚異的なロングコンテキスト処理能力を備えた最新モデル群だ。

Llama 4の登場によって、マルチモーダル対応や超長文処理といった技術的進化は一段と加速しています。こうした先端AI技術は、研究開発の領域にとどまらず、業務現場でも急速に実用化が進んでる。

たとえば、問い合わせ対応の自動化を目的としたAIツール「AIbox」では、RAG(検索拡張生成)機能を活用し、社内のマニュアルやFAQ、ドキュメントをもとに高精度な応答を実現しています。Slackとの連携も可能で、人手では対応しきれない繰り返しの問い合わせにも、即時・正確に対応。こうした業務向けAIの導入により、カスタマーサポートやバックオフィス部門の生産性向上が現実のものとなりつつある。

最新AIモデルが業務効率にどう活かせるのか――「AIbox」のようなツールが、その一つの答えになるかもしれない。


3つのモデル構成:Behemoth / Maverick / Scout

Llama 4は、以下の3つのモデルから構成されている。

モデル名

概要

Llama 4 Behemoth

アクティブパラメータ数288B(2880億)、総パラメータ数2T(2兆)を誇る超巨大モデル。エキスパートMixture of Experts構成。蒸留用の「教師モデル」として設計され、現在プレビュー中。

Llama 4 Maverick

実運用向けの主力モデル。170億のアクティブパラメータ、総パラメータ4000億。ネイティブでマルチモーダル対応し、100万トークンのコンテキストウィンドウをサポート。すでに利用可能。

Llama 4 Scout

高速推論とコスト最適化に特化した軽量モデルながら、なんと1000万トークンのコンテキスト長を実現。業界最長のコンテキスト処理能力を誇る。こちらも利用可能。


ベンチマーク:Maverick / Scout / Behemoth

それぞれのモデルでのベンチマーク結果は以下の通りだ。

Llama 4 Maverick ベンチマーク(公式)

分野

ベンチマーク名

Llama 4 Maverick

GPT-4o(参考)

推論コスト

100万トークンあたり

$0.19~$0.49

$4.38

画像推論

MMMU / MathVista

73.4 / 73.7

69.1 / 63.8

画像理解

ChartQA / DocVQA

90.0 / 94.4

85.7 / 92.8

コーディング

LiveCodeBench

43.4

32.3

推論&知識

MMLU Pro / GPQA

80.5 / 69.8

— / 53.6

多言語対応

Multilingual MMLU

84.6

81.5

長文処理

MTOB(全体)

50.8 / 46.7

(128Kトークン制限)


Llama 4 Scout ベンチマーク(公式)

分野

ベンチマーク

Llama 4 Scout

Llama 3.3 70B

Llama 3.1 405B

Gemma 3 27B

Mistral 3.1 24B

Gemini 2.0 Flash-Lite

画像推論

MMMU

69.4

64.9

62.8

68.0


MathVista

70.7

67.6

68.9

57.6

画像理解

ChartQA

88.8

76.3

86.2

73.0


DocVQA(テスト)

94.4

90.4

94.1

91.2

コーディング

LiveCodeBench

32.8

33.3

27.7

29.7

28.9

知識・推論

MMLU Pro

74.3

68.9

73.4

67.5

66.8

71.6


GPQA Diamond

57.2

50.5

49.0

42.4

46.0

51.5

長文理解

MTOB(半分の本)

42.2 / 36.6

(128K)

(128K)

(128K)

42.3 / 35.1


MTOB(全体の本)

39.7 / 36.3

(128K)

(128K)

(128K)

35.1 / 30.0

Scoutは、1000万トークンの長文処理が可能なモデルでありながら、驚くほど高い性能を維持しています。特に画像理解(ChartQA: 88.8、DocVQA: 94.4)はトップクラスのスコアで、軽量モデルとは思えない水準です。

長文処理ベンチマーク「MTOB」でも、他モデルが128Kトークン制限の中、Scoutは実際に10Mトークンを活かした評価が行われており、文脈保持力の高さが際立ちます。

一方で、LiveCodeBenchのスコア(32.8)は他モデルより控えめで、コーディング用途にはやや不向き。ただし、対話・文書・画像読解などを中心とする業務には非常に強力な選択肢となります。


Llama 4 Behemoth ベンチマーク(公式)

分野

ベンチマーク

Llama 4 Behemoth

Claude Sonnet 3.7

Gemini 2.0 Pro

GPT-4.5

コーディング

LiveCodeBench

49.4

36.0

数学的推論

MATH-500

95.0

82.2

91.8

知識・推論

MMLU Pro

82.2

79.1


GPQA Diamond

73.7

68.0

64.7

71.4

多言語能力

Multilingual MMLU

85.8

83.2

85.1

画像推論

MMMU

76.1

71.8

72.7

74.4

Behemothは、数学・知識・言語分野で現行のトップモデルを圧倒しています。特に数学系ベンチマーク「MATH-500」で95.0というスコアは圧巻で、Claude SonnetやGemini 2.0 Proを大きく上回る結果です。

また、LiveCodeBenchやMMLU Pro、GPQAなど幅広い分野で高得点を記録しており、まさに“蒸留用教師モデル”としてふさわしい性能です。

なお、現在はプレビュー段階のため、一般利用にはもう少し時間が必要です。


Chatbot Arenaでも高評価を記録

さらに、実利用の満足度を測るベンチマークとして注目されている「Chatbot Arena」でも、Llama 4 Maverickは極めて高い評価を受けている。

ChatbotArenaのLlama4ベンチマーク結果
ChatbotArenaのLlama4ベンチマーク結果
  • 総合スコア1417点で全体2位(2025年4月時点)

  • オープンモデルとしては史上最高評価

  • ハードプロンプト」「コーディング」「数学」「創造的ライティング」のカテゴリで全モデル中1位タイ

  • 前世代のLlama 3 405B(スコア1268)から劇的な性能向上

  • スタイル制御(Style Control)」カテゴリでも第5位にランクイン

Chatbot Arenaとは:ユーザーが2つのLLMを匿名で比較評価し、どちらの出力が優れているかを投票する形式のバトル評価プラットフォーム。大規模な利用者によるリアルな評価が得られるため、信頼性が高い指標として注目されている。

この結果からも、Maverickは単なる研究ベンチマーク上の強さだけでなく、実使用における会話品質・応答の知性・創造力においても非常に優れていることが裏付けられた。GPT-4oやClaude 3.5といった商用モデルとも十分に戦える水準にあると言える。

Comments


b367c377-a8c4-411a-a21e-e5d603bcd498 (1).jpg

スノーリーズ株式会社​

代表取締役

石黒翔也

​執筆者プロフィール

約7年間にわたりモバイルアプリケーションやWebアプリケーションの開発、AzureやAWSを活用したサーバー構築に従事。

その後、2021年にスノーリーズ株式会社を設立し、AIで問い合わせ業務の効率化を実現する「AIbox」を開発。

AIboxは最新のRAG技術(Retrieval-Augmented Generation)を活用し、問い合わせ業務に課題を抱える企業に採用されています。

現在は、企業の技術顧問としても活動しながら、AIやクラウド技術の普及に取り組んでいます。

bottom of page