Bird-SQL (dev)

reasoning

BIRD (BIg Bench for LaRge-scale Database Grounded Text-to-SQLs) is a comprehensive text-to-SQL benchmark containing 12,751 question-SQL pairs across 95 databases (33.4 GB total) spanning 37+ professional domains. It evaluates large language models' ability to convert natural language to executable SQL queries in real-world scenarios with complex database schemas and dirty data.

Leaderboard

Showing 7 of 7 results

Gemini 2.0 Flash-Lite

57.4%

i
Gemini 2.0 Flash

56.9%

i
Gemma 3 27B

54.4%

i
Gemma 3 12B

47.9%

i
Nemotron 3 Super (120B A12B)

41.8%

i
Gemma 3 4B

36.3%

i
Gemma 3 1B

6.4%

i