DS-Arena-Code

reasoning

Data Science Arena Code benchmark for evaluating LLMs on realistic data science code generation tasks. Tests capabilities in complex data processing, analysis, and programming across popular Python libraries used in data science workflows.

Leaderboard

Showing 1 of 1 result

DeepSeek-V2.5

63.1%

i