DROP

math

DROP (Discrete Reasoning Over Paragraphs) is a reading comprehension benchmark requiring discrete reasoning over paragraph content. It contains crowdsourced, adversarially-created questions that require resolving references and performing discrete operations like addition, counting, or sorting, demanding comprehensive paragraph understanding beyond paraphrase-and-entity-typing shortcuts.

Leaderboard

Showing 20 of 30 results

DeepSeek-V3

91.6%

i
Claude 3.5 Sonnet

87.1%

i
Claude 3.5 Sonnet

87.1%

i
MiMo-V2.5-Pro

86.3%

i
GPT-4 Turbo

86.0%

i
Nova Pro

85.4%

i
Llama 3.1 405B Instruct

84.8%

i
GPT-4o

83.4%

i
Claude 3.5 Haiku

83.1%

i
Claude 3 Opus

83.1%

i
GPT-4

80.9%

i
Nova Lite

80.2%

i
GPT-4o mini

79.7%

i
Llama 3.1 70B Instruct

79.6%

i
Nova Micro

79.3%

i
LongCat-Flash-Chat

79.1%

i
Claude 3 Sonnet

78.9%

i
Claude 3 Haiku

78.4%

i
Phi 4

75.5%

i
Gemini 1.5 Pro

74.9%

i