HumanEvalFIM-Average

general

Average evaluation of HumanEval Fill-in-the-Middle benchmark variants (single-line, multi-line, random-span) for assessing code infilling capabilities of language models

Leaderboard

Showing 1 of 1 result

Codestral-22B

91.6%

i