AutoLogi

reasoning

AutoLogi is an automated method for synthesizing open-ended logic puzzles to evaluate reasoning abilities of Large Language Models. The benchmark addresses limitations of existing multiple-choice reasoning evaluations by featuring program-based verification and controllable difficulty levels. It includes 1,575 English and 883 Chinese puzzles, enabling more reliable evaluation that better distinguishes models' reasoning capabilities across languages.

Leaderboard

Showing 2 of 2 results

Kimi K2 Instruct

89.5%

i
Kimi K2-Instruct-0905

89.5%

i