Winogrande

reasoning

WinoGrande: An Adversarial Winograd Schema Challenge at Scale. A large-scale dataset of 44,000 pronoun resolution problems designed to test machine commonsense reasoning. Uses adversarial filtering to reduce spurious biases and provides a more robust evaluation of whether AI systems truly understand commonsense or exploit statistical shortcuts. Current best AI methods achieve 59.4-79.1% accuracy, significantly below human performance of 94.0%.

Leaderboard

Showing 20 of 22 results

GPT-4

87.5%

i
MiMo-V2.5-Pro

85.6%

i
Command R+

85.4%

i
Qwen2 72B Instruct

85.1%

i
Llama 3.1 Nemotron 70B Instruct

84.5%

i
Gemma 2 27B

83.7%

i
Hermes 3 70B

83.2%

i
Qwen2.5 32B Instruct

82.0%

i
Phi-3.5-MoE-instruct

81.3%

i
Qwen2.5-Coder 32B Instruct

80.8%

i
Gemma 2 9B

80.6%

i
Mistral NeMo Instruct

76.8%

i
Ministral 8B Instruct

75.3%

i
Granite 3.3 8B Base

74.4%

i
Qwen2.5-Coder 7B Instruct

72.9%

i
Gemma 3n E4B

71.7%

i
Gemma 3n E4B Instructed LiteRT Preview

71.7%

i
Phi-3.5-mini-instruct

68.5%

i
Phi 4 Mini

67.0%

i
Gemma 3n E2B

66.8%

i