ComplexFuncBench

reasoning

ComplexFuncBench is a benchmark designed to evaluate large language models' capabilities in handling complex function calling scenarios. It encompasses multi-step and constrained function calling tasks that require long-parameter filling, parameter value reasoning, and managing contexts up to 128k tokens. The benchmark includes 1,000 samples across five real-world scenarios.

Leaderboard

Showing 7 of 7 results

GPT-4o

66.5%

i
GPT-4.1

65.5%

i
Nova 2 Sonic

65.2%

i
GPT-4.5

63.0%

i
GPT-4.1 mini

49.3%

i
o3-mini

17.6%

i
GPT-4.1 nano

5.7%

i