SWE-Bench Multimodal

coding

SWE-Bench Multimodal extends SWE-Bench to evaluate language models on software engineering tasks that involve visual inputs such as screenshots, UI mockups, and diagrams alongside code understanding.

Leaderboard

Showing 2 of 2 results

Claude Mythos Preview

59.0%

i
Claude Opus 4.8

38.4%

i