VATEX

multimodal

VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research. Contains over 41,250 videos and 825,000 captions in both English and Chinese, with over 206,000 English-Chinese parallel translation pairs. Supports multilingual video captioning and video-guided machine translation tasks.

Leaderboard

Showing 2 of 2 results

Nova Lite

77.8%

i
Nova Pro

77.8%

i