Multi-IF

reasoning

Multi-IF benchmarks LLMs on multi-turn and multilingual instruction following. It expands upon IFEval by incorporating multi-turn sequences and translating English prompts into 7 other languages, resulting in 4,501 multilingual conversations with three turns each. The benchmark reveals that current leading LLMs struggle with maintaining accuracy in multi-turn instructions and shows higher error rates for non-Latin script languages.

Leaderboard

Showing 20 of 20 results

Qwen3-235B-A22B-Thinking-2507

80.6%

i
o3-mini

79.5%

i
Qwen3 VL 235B A22B Thinking

79.1%

i
Qwen3 VL 32B Thinking

78.0%

i
Qwen3-Next-80B-A3B-Thinking

77.8%

i
Qwen3-235B-A22B-Instruct-2507

77.5%

i
Qwen3 VL 235B A22B Instruct

76.3%

i
Qwen3-Next-80B-A3B-Instruct

75.8%

i
Qwen3 VL 8B Instruct

75.1%

i
Qwen3 VL 8B Thinking

75.1%

i
Qwen3 VL 4B Thinking

73.6%

i
Qwen3 VL 30B A3B Thinking

73.0%

i
Qwen3 30B A3B

72.2%

i
Qwen3 VL 32B Instruct

72.0%

i
GPT-4.1

70.8%

i
GPT-4.5

70.8%

i
GPT-4.1 mini

67.0%

i
Qwen3 VL 30B A3B Instruct

66.1%

i
GPT-4o

60.9%

i
GPT-4.1 nano

57.2%

i