Qwen3.5-2B

Qwen3.5-2B is a 2 billion parameter vision-language model using Gated DeltaNet hybrid architecture with a 3:1 ratio of linear attention to full softmax attention. It supports 262K native context length and features both thinking and non-thinking modes.

MMLU-Redux i

79.6%

source →
IFEval i

78.6%

source →
C-Eval i

73.2%

source →
Global PIQA i

69.3%

source →
MMLU-Pro i

66.5%

source →
MMMLU i

63.1%

source →
MAXIFE i

60.6%

source →
Include i

55.4%

source →
MMLU-ProX i

52.3%

source →
GPQA i

51.6%

source →
t2-bench i

48.8%

source →
NOVA-63 i

46.4%

source →
WMT24++ i

45.8%

source →
BFCL-V4 i

43.6%

source →
IFBench i

41.3%

source →
LongBench v2 i

38.7%

source →
SuperGPQA i

37.5%

source →
Multi-Challenge i

33.7%

source →
PolyMATH i

26.1%

source →
AA-LCR i

25.6%

source →