OpenAI-MRCR: 2 needle 128k

reasoning

Multi-round Co-reference Resolution (MRCR) benchmark for evaluating an LLM's ability to distinguish between multiple needles hidden in long context. Models are given a long, multi-turn synthetic conversation and must retrieve a specific instance of a repeated request, requiring reasoning and disambiguation skills beyond simple retrieval.

Leaderboard

Showing 9 of 9 results

GPT-5

95.2%

i
MiniMax M1 40K

76.1%

i
MiniMax M1 80K

73.4%

i
GPT-4.1

57.2%

i
GPT-4.1 mini

47.2%

i
GPT-4.5

38.5%

i
GPT-4.1 nano

36.6%

i
GPT-4o

31.9%

i
o3-mini

18.7%

i