Cybersecurity CTFs

safety

Cybersecurity Capture the Flag (CTF) benchmark for evaluating LLMs in offensive security challenges. Contains diverse cybersecurity tasks including cryptography, web exploitation, binary analysis, and forensics to assess AI capabilities in cybersecurity problem-solving.

Leaderboard

Showing 4 of 4 results

GPT-5.3 Codex

77.6%

i
Claude Haiku 4.5

46.9%

i
Claude Haiku 4.5

46.9%

i
o1-mini

28.7%

i