SWE-Lancer

coding

A benchmark for evaluating large language models on real-world freelance software engineering tasks from Upwork. Contains over 1,400 tasks valued at $1 million USD total, ranging from $50 bug fixes to $32,000 feature implementations. Includes both independent engineering tasks graded via end-to-end tests and managerial tasks assessed against original engineering managers' choices.

Leaderboard

Showing 4 of 4 results

GPT-5.1 Codex

66.3%

i
GPT-4.5

37.3%

i
GPT-4o

32.6%

i
o3-mini

18.0%

i