FRAMES

reasoning

Factuality, Retrieval, And reasoning MEasurement Set - a unified evaluation dataset of 824 challenging multi-hop questions for testing retrieval-augmented generation systems across factuality, retrieval accuracy, and reasoning capabilities, requiring integration of 2-15 Wikipedia articles per question

Leaderboard

Showing 2 of 2 results

Kimi K2-Thinking-0905

87.0%

i
DeepSeek-V3

73.3%

i