Skip to content

Models Benchmarks Providers

Search models and benchmarks /

FullStackBench en

coding

Categories: agents, code, reasoning
Modality: text
Language: en
Multilingual: No
Max score: 1
Scoring: %, higher is better
Verified by llm-stats: No

English subset of FullStackBench for evaluating end-to-end software engineering and full-stack development capability.

Leaderboard

Showing 3 of 3 results

Qwen3.5-122B-A10B

62.6%

i
Qwen3.5-27B

60.1%

i
Qwen3.5-35B-A3B

58.1%

i

Wikibench About Theme Content licensed CC BY-SA 4.0.