Benchmarks

1-20 of 555 benchmarks shown.


GPQA · Main	reasoning	%	225
MMLU-Pro	math	%	127
AIME 2025	math	%	115
MMLU	math	%	105
SWE-Bench Verified	coding	%	101
Humanity's Last Exam	math	%	86
MATH	math	%	75
LiveCodeBench	coding	%	74
HumanEval	coding	%	72
MMMU	reasoning	%	66
IFEval	general	%	64
MMMU-Pro	reasoning	%	56
AIME 2024	math	%	54
LiveCodeBench v6	reasoning	%	50
MMMLU	math	%	49
BrowseComp	reasoning	%	48
GSM8k	math	%	48
MMLU-Redux	math	%	47
SimpleQA	reasoning	%	46
Terminal-Bench 2.0	coding	%	46