MMLUとは?AIベンチマークの基礎知識
MMLU(Massive Multitask Language Understanding)は、大規模言語モデル(LLM)の知識と推論能力を測定するための有名なベンチマークテストです。
MMLUの概要
MMLUは、57種類の多岐にわたるタスクで構成されており、それぞれが複数選択式(4択)の問題となっています。分野は以下のように多岐にわたります:
- 歴史
- 数学
- 医学
- 法律
- コンピュータサイエンス
- 哲学
- 工学
- 高校・大学レベルの一般教養科目
なぜMMLUが重要なのか?
MMLUは、単なる文章生成能力ではなく、モデルがどれだけ深い知識を持ち、推論できるかを評価するために使われます。たとえば、大学入試や資格試験のようなレベルの問題に答えられるかをチェックすることで、実用的な知能の目安になります。
スコアの見方
MMLUは、全体として正答率(Accuracy)で評価されます。高ければ高いほど、より優れた言語理解・知識・推論能力を持っていることを示します。
たとえば:
- GPT-3: 約43%
- GPT-4: 約86.4%
- ClaudeやLLaMA、Geminiなどの最新モデルもこのベンチマークで評価されています。
例題(生物学)
以下はMMLUの問題の一例です(大学レベルの生物学):
細胞内でエネルギー産生を担う細胞小器官はどれか?
A. 核
B. リボソーム
C. ミトコンドリア
D. 小胞体
正解: C. ミトコンドリア
まとめ
MMLUは、AIモデルがどの程度人間のような理解力や推論力を持っているかを測るための、信頼性の高いベンチマークです。今後のAI評価においても、重要な基準のひとつとなるでしょう。
最新のAIモデルがどのようにMMLUに取り組んでいるかを知ることで、その進化のスピードや能力の幅を理解することができます。
参考リンク: MMLU 論文 (arXiv)
コメント