MMLUとは？AIベンチマークの基礎知識

2025.05.17

MMLU（Massive Multitask Language Understanding）は、大規模言語モデル（LLM）の知識と推論能力を測定するための有名なベンチマークテストです。

MMLUの概要

MMLUは、57種類の多岐にわたるタスクで構成されており、それぞれが複数選択式（4択）の問題となっています。分野は以下のように多岐にわたります：

MMLUは、単なる文章生成能力ではなく、モデルがどれだけ深い知識を持ち、推論できるかを評価するために使われます。たとえば、大学入試や資格試験のようなレベルの問題に答えられるかをチェックすることで、実用的な知能の目安になります。

MMLUは、全体として正答率（Accuracy）で評価されます。高ければ高いほど、より優れた言語理解・知識・推論能力を持っていることを示します。

たとえば：

以下はMMLUの問題の一例です（大学レベルの生物学）：

細胞内でエネルギー産生を担う細胞小器官はどれか？
A. 核
B. リボソーム
C. ミトコンドリア
D. 小胞体
正解: C. ミトコンドリア

MMLUは、AIモデルがどの程度人間のような理解力や推論力を持っているかを測るための、信頼性の高いベンチマークです。今後のAI評価においても、重要な基準のひとつとなるでしょう。

最新のAIモデルがどのようにMMLUに取り組んでいるかを知ることで、その進化のスピードや能力の幅を理解することができます。