CyberGym

coding

CyberGym is a benchmark for evaluating AI agents on cybersecurity tasks, testing their ability to identify vulnerabilities, perform security analysis, and complete security-related challenges in a controlled environment.

Leaderboard

Showing 7 of 7 results

Claude Mythos Preview

83.1%

i
GPT-5.5

81.8%

i
Claude Opus 4.8

78.8%

i
Claude Opus 4.6

73.8%

i
Claude Opus 4.7

73.1%

i
GLM-5.1

68.7%

i
Kimi K2.5

41.3%

i