GPQA

reasoning Main

A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, with PhD experts reaching 65% accuracy.

Leaderboard

Showing 20 of 224 results

Claude Mythos Preview

94.6%

i
Gemini 3.1 Pro

94.3%

i
Claude Opus 4.7

94.2%

i
Claude Opus 4.8 max

93.6%

i
GPT-5.5

93.6%

i
GPT-5.2 Pro

93.2%

i
GPT-5.4

92.8%

i
GPT-5.2

92.4%

i
Qwen3.7 Max

92.4%

i
Gemini 3 Pro

91.9%

i
Claude Opus 4.6

91.3%

i
Kimi K2.6

90.5%

i
Gemini 3 Flash

90.4%

i
Qwen3.6 Plus

90.4%

i
DeepSeek-V4-Pro-Max

90.1%

i
Claude Sonnet 4.6

89.9%

i
Muse Spark

89.5%

i
Seed 2.0 Pro

88.9%

i
Grok-4 Heavy

88.4%

i
Qwen3.5-397B-A17B

88.4%

i