CharadesSTA

multimodal

Charades-STA is a benchmark dataset for temporal activity localization via language queries, extending the Charades dataset with sentence temporal annotations. It contains 12,408 training and 3,720 testing segment-sentence pairs from videos with natural language descriptions and precise temporal boundaries for localizing activities based on language queries.

Leaderboard

Showing 12 of 12 results

Qwen3 VL 235B A22B Instruct

64.8%

i
Qwen3 VL 235B A22B Thinking

63.5%

i
Qwen3 VL 30B A3B Instruct

63.5%

i
Qwen3 VL 32B Thinking

62.8%

i
Qwen3 VL 30B A3B Thinking

62.7%

i
Qwen3 VL 32B Instruct

61.2%

i
Qwen3 VL 8B Thinking

59.9%

i
Qwen3 VL 4B Thinking

59.0%

i
Qwen3 VL 8B Instruct

56.0%

i
Qwen3 VL 4B Instruct

55.5%

i
Qwen2.5 VL 32B Instruct

54.2%

i
Qwen2.5 VL 7B Instruct

43.6%

i