OpenAI-MRCR: 2 needle 1M

reasoning

Multi-Round Co-reference Resolution benchmark that tests an LLM's ability to distinguish between multiple similar needles hidden in long conversations. Models must reproduce specific instances of content (e.g., 'Return the 2nd poem about tapirs') from multi-turn synthetic conversations, requiring reasoning about context, ordering, and subtle differences between similar outputs.

Leaderboard

Showing 5 of 5 results

MiniMax M1 40K

58.6%

i
MiniMax M1 80K

56.2%

i
GPT-4.1

46.3%

i
GPT-4.1 mini

33.3%

i
GPT-4.1 nano

12.0%

i