MMLU Benchmark Rankings | BAUS.AI — AI Agents & Models Ranking

MMLU

Name: MMLU Benchmark Results
Creator: BAUS.AI

Massive Multitask Language Understanding evaluates broad knowledge across 57 subjects (STEM, humanities, etc.) with multiple-choice questions.

What it measures: Broad multitask knowledge and reasoning across many domains.
How it was administered: Multiple-choice; 4 options per question; 5-shot in-context examples; 15,908 questions.

Model rankings

Models ranked by score on this benchmark. Higher is better.

Rank	Model	Provider	Score	Percentile	Tags
1	GPT-o1	OpenAI	91.8	p99	Text Generation, Reasoning, Proprietary
2	DeepSeek R1	DeepSeek	90.8	p99	Text Generation, Reasoning, Open Weight, Large