← 返回 TL;DR
清华与阿里把“测试时训练”(Test-Time Training, TTT)这一线性复杂度序列建模新范式系统性地搬进视觉。作者对 TTT 的“内层模型”和“内层训练”做了一轮系统消融,提炼出 6 条可操作的设计准则,据此造出纯 TTT 架构 ViT³。它在图像分类、检测、分割、生成四类任务上稳定超过 Mamba 和线性注意力,并把与高度优化 ViT 的差距缩到很小;在 1248² 分辨率(6084 token)下比 DeiT 快 4.6×、省 90.3% 显存。论文已被 CVPR 2026 接收为 Oral。
论文类型
实证研究 + 架构提出(systematic study + baseline)
一句话
把 TTT 系统性引入视觉,提炼 6 条设计准则并造出 ViT³ 基线
核心做法
把注意力重写成“测试时在 K-V 上做几步在线学习”,内层模型用门控线性单元 + 一个深度卷积头
关键结果
ViT³-S 81.6% / H-ViT³-B 85.5%(ImageNet Top-1);1248² 下比 DeiT 快 4.6×、省 90.3% 显存
适用
要处理长视觉序列(高分辨率检测/分割/生成)的线性复杂度骨干
不适用
追求绝对 SOTA 精度——语义分割上仍略逊 TransNeXt 等高度优化 ViT
机构 / 收录
清华大学 + 阿里巴巴;CVPR 2026 Oral
代码
github.com/LeapLabTHU/ViTTT
01
问题:在二次复杂度和“太弱的线性注意力”之间,找第三条路
Vision Transformer(视觉Transformer)(ViT)已是现代视觉的基石,但 Softmax 注意力(标准点积注意力)对序列长度有二次复杂度(随长度平方增长) O(N²) 的硬伤——处理高分辨率图像这种长序列时贵到难以承受。
社区的主流解法是线性注意力(用核函数把注意力降到O(N)):把 Softmax 换成线性核,利用矩阵乘法结合律把计算从 (QKᵀ)V 重排成 Q(KᵀV),复杂度降到 O(N)。本质上它把整段 K、V 压成一个 d×d 的线性层权重 W=KᵀV。但代价是状态太小、KᵀV 这种朴素压缩会丢掉重要信息,表达力受限,很多场景下打不过完整注意力。
TTT(Test-Time Training(测试时训练))提供了第三条路。它的视角很优雅:任何注意力都可以看成“把上下文 (K,V) 压进一个内层模型,再用 Q 去查询它”——Softmax 注意力是一个宽度为 N 的两层 MLP,线性注意力是一个 d×d 线性层。TTT 则把这个内层模型解放成任意模块 F_W,在测试时把 K-V 当成一个“迷你数据集”,做几步自监督在线训练来更新它的权重。当内层模块本身是线性复杂度时,整体就保持 O(N),同时获得远比线性注意力丰富的非线性表达力。
但灵活也带来新瓶颈:内层训练(损失函数、学习率、批量、轮数)和内层模型(结构、大小)该怎么选,此前缺乏系统理解。这正是本文要回答的核心问题——为视觉 TTT 建立设计准则。
02
方法本质:把 K-V 压进一个“即时训练”的小网络
TTT 把序列建模重写为在线学习。设 内层模型(TTT中被即时训练的小网络) F_W:ℝ^d→ℝ^d,初始权重 W₀ 是外层网络里可学习的参数。对每一段输入,它在 key-value“数据集”上做几步梯度更新(下式),再用更新后的权重 W* 处理查询 Q 得到输出。
\hat{V}_{\mathcal{B}}=\mathcal{F}_{W}(K_{\mathcal{B}}),\qquad W\leftarrow W-\eta·\frac{\partial\mathcal{L}(\hat{V}_{\mathcal{B}},V_{\mathcal{B}})}{\partial W},\qquad O=\mathcal{F}_{W^{*}}(Q)
内层训练:在大小为 B 的 K-V 小批上,用自监督重建损失 L(鼓励 F_W(Kᵢ)≈Vᵢ)更新内层权重;η 是内层学习率。整个内层更新过程可微,与外层网络端到端联合优化(即对梯度再求梯度,类似元学习)。
关键术语区分:F_W 和上式叫内层模块 / 内层训练(inner loop);整张网络在真实数据上的训练叫外层训练(真实数据上的端到端训练)(outer loop)。一个 TTT 层每段序列要做:(i) 在 key 上前向 V̂=F_W(K),(ii) 损失反向,(iii) 在 query 上前向 O=F_W(Q)。反向通常是前向的 2 倍 FLOPs,所以一轮内层训练约等于 1+2+1=4 倍前向算力——这也是为什么“轻量但表达力强的内层模型”很重要。
03
六条设计准则:视觉 TTT 到底该怎么配
作者以经典视觉 Transformer DeiT 为骨架、把注意力块换成 TTT 层作为基线,逐一消融内层训练和内层模型的各项选择,提炼出 6 条洞见。
前三条关于“内层训练”,后三条关于“内层模型”:
1
准则 1:混合二阶导(损失对 V̂ 和 V 的交叉二阶偏导)为零的损失函数不适合 TTT
外层要通过反向传播给 value 投影矩阵 W_V 传梯度,而这条梯度正比于损失的混合二阶导 ∂²L/∂V̂∂V。若它(近似)为零,W_V 学不动。实验印证:MAE(L1) 损失(导数是符号函数、混合二阶导几乎处处为零)精度最差(76.5%),Smooth L1 也偏低(78.1%),而 Dot Product / MSE / RMSE 都约 79%。
2
准则 2:单 epoch、全批量梯度下降(用全部 K-V 做一步更新)在视觉里最好
与语言 TTT“小批量更有利”的结论相反,视觉里 B=N(全批量)最优。原因是模态差异:顺序小批量带来因果偏置(前面的批量影响后面、后面的还会覆盖前面),适合语言这种因果数据,但对非因果的视觉次优。多个 epoch 能小幅提精度,但显著降吞吐、还可能训练不稳。
3
准则 3:偏大的内层学习率(取 1.0)有效
学习率从 0.1 扫到 10:太小则内层更新不足,太大则训练发散。η=1.0 兼顾有效更新与外层稳定。论文还指出,对线性内层+MSE 的特例,调 η 在数学上等价于缩放 K、V,但 η 仍是关键超参(就像 Softmax 注意力里的 1/√d 缩放)。
4
准则 4:增大内层模型容量(加宽)稳定涨点
把两层 MLP 的隐藏维从 d 加宽到 4d,精度从 78.9% 单调升到 79.6%。这是 TTT 相对线性注意力的核心优势:不再被限制在 d×d 线性映射,而能用更复杂的非线性内层模块并持续受益。代价是内层加宽比外层加宽更费算力(约 4 倍)。
5
准则 5:当前设定下,加深内层模型反而更差
反直觉但清晰:FC→2 层→3 层 MLP,精度不升反降,且更深的内层训练损失更高(属于欠拟合而非过拟合)——说明是优化瓶颈,分为外层初始化难学、内层梯度爆炸/消失两方面。标准残差和朴素初始化收效有限。破解深内层的优化被作者列为重要的未来方向。
6
准则 6:卷积结构特别适合做视觉的内层模型
得益于 TTT 的灵活性,内层可以是卷积而非只能是 MLP/GLU。3×3 卷积(79.9%)和轻量深度卷积 DWConv(80.1%)都明显涨点。机理优雅:卷积内层把全局上下文压进局部卷积核权重,于是 O=F_W(Q) 同时实现全局(更新后的核)+ 局部(感受野)交互,天然融合全局与局部。
| 内层损失(准则1) | Top-1 | 混合二阶导 |
| MSE (L2) | 79.2 | 非零 ✓ |
| Dot Product | 78.9 | 非零 ✓ |
| RMSE | 78.8 | 非零 ✓ |
| Smooth L1 | 78.1 | 部分区域为零 ✗ |
| MAE (L1) | 76.5 | 几乎处处为零 ✗ |
| 内层模型(准则4-6) | Top-1 | FPS |
| FC(d×d 线性,最快) | 79.1 | 1708 |
| MLP 2 层 r1(基线) | 78.9 | 1315 |
| MLP 2 层 r4(加宽) | 79.6 | 836 |
| MLP 3 层(加深) | 77.5 | 1086 |
| 简化 GLU:FC⊙SiLU(FC) | 79.7 | 1194 |
| Conv 3×3 | 79.9 | 979 |
| DWConv(深度卷积,最优) | 80.1 | 1366 |
04
ViT³:把准则落成一个即插即用的注意力替代块
据准则,ViT³ 的内层训练取 dot-product 损失 + 单 epoch 全批量梯度下降 + 学习率 1.0;内层模型用两个被验证有效的模块组合——简化门控线性单元(用乘法门控的线性层) F1 = FC(x)⊙SiLU(FC(x))(让 d×d 线性状态容量翻倍且易优化)和深度卷积(逐通道卷积,极省算力) F2 = DWConv(x)(融合局部与全局)。每个 TTT 块里一个头用 F2、其余头用 F1。这是标准注意力块的即插即用替代,能塞进各类 ViT 骨干。
作者造了两套规模族:ViT³(非分层)和 H-ViT³(4 阶段分层),并把它适配到扩散 Transformer DiT(扩散Transformer) 上得到 DiT³ 做生成。所有分类模型按 Swin 协议从零训练 300 epoch。
81.6%
ViT³-S ImageNet Top-1(DeiT-S 仅 79.8%)
85.5%
H-ViT³-B Top-1(用 MESA)
4.6×
1248² 下相对 DeiT-T 的加速
分类(ImageNet-1K):ViT³/H-ViT³ 稳定超过线性注意力和 Mamba 变体,逼近顶级 ViT。如 H-ViT³-S 用约一半参数和 FLOPs 就超过更大的 SOFT-L++ 和 VMamba-B。检测(COCO):高分辨率下 token 远长于分类(N≫d),VMamba/SOFT++ 受限于状态容量而吃亏,H-ViT³ 靠非线性内层+在线学习获得更强全局建模,匹配或超过线性方法。分割(ADE20K):H-ViT³ 是强线性基线、稳超 VMamba/VVT/SOFT++,但仍逊于 TransNeXt 等高度优化 ViT。生成:DiT³ 在各规模上一致改善 DiT 的 FID(无需额外调参)。
| 模型 | 类型 | Params | Top-1(ImageNet) |
| DeiT-S | Transformer | 22M | 79.8 |
| Vim-S | Mamba | 26M | 80.3 |
| Agent-DeiT-S | Linear | 23M | 80.5 |
| ViT³-S | TTT | 24M | 81.6 |
| VMamba-B | Mamba | 89M | 83.9 |
| MILA-B‡ | Linear | 96M | 85.3 |
| H-ViT³-B‡ | TTT | 94M | 85.5 |
| 生成模型(FID-50K↓) | FLOPs | FID | 对比 DiT |
| DiT-S/2 → DiT³-S/2 | 6.06→6.23G | 68.40 → 62.65 | ↓ 5.75 |
| DiT-B/2 → DiT³-B/2 | 23.01→23.35G | 43.47 → 39.31 | ↓ 4.16 |
05
适用边界:它是强基线,但不是 SOTA 收割机
精度仍有天花板:语义分割上 H-ViT³ 虽稳超其他线性方法,但仍明显逊于 TransNeXt 等高度优化 ViT——论文把“设计更深、更强的内层模型”列为补差距的方向,而这恰恰被准则 5 卡住(当前深内层训不动)。
算力账要算清:TTT 内层每段序列约 4 倍前向算力,加宽内层涨点但更费算力;优势主要体现在长序列(高分辨率)场景,分类这类短序列上相对密集 ViT 的效率红利没那么大。
结论的适用范围:6 条准则是在“DeiT 骨架替换注意力块”这一受控设定下得到的实证结论,且作者明确声明未穷尽设计空间——内层优化器、内层数据增强、用 Transformer 做内层模型等都没覆盖。准则 2(全批量优于小批量)也被作者归因于“朴素顺序小批量”,为视觉定制的小批量内层算法仍是开放问题。
仍是“缩小差距”而非“反超”:定位是为视觉 TTT 提供强基线和设计指南,不是宣称全面超越 Transformer。
06
时效性:CVPR 2026 Oral,TTT-in-vision 方向正在升温
截至 2026 年 6 月:本文(arXiv 2512.01643,2025 年 12 月)已被 CVPR 2026 接收为 Oral,代码开源在 github.com/LeapLabTHU/ViTTT(LeapLab THU,即 Gao Huang 组)。
TTT 作为线性复杂度新范式的热度仍在上升——同期已出现紧随其后的工作,如 Vision-TTT(arXiv 2603.00518,2026)继续探索高效且富表达力的视觉 TTT 表示学习,与本文方向一脉相承。这说明本文“把 TTT 系统性引入视觉 + 提供强基线”的定位正当其时:它更像是开一个子领域的奠基性基线 + 设计手册,而非一锤定音的终态架构。论文自己点名的两大未解问题(深内层优化、为视觉定制的小批量内层训练)很可能是后续工作的主战场。
Test-Time Training (TTT)
测试时训练。把注意力重写为在线学习:对每段输入,在其 key-value 上即时训练一个小内层模型,再用它处理 query。内层为线性复杂度时整体保持 O(N)。
内层模型 / 内层训练(inner loop)
TTT 中被即时训练的小网络 F_W,以及它在 K-V 上做的几步梯度更新。与之相对的外层(outer loop)是整张网络在真实数据上的端到端训练。
Softmax 注意力
标准点积注意力,可视为宽度为 N、激活为 Softmax 的两层 MLP,复杂度 O(N²)。
线性注意力(linear attention)
用线性核替换 Softmax,把 K、V 压成 d×d 线性层权重 W=KᵀV,复杂度降到 O(N),但状态小、易丢信息。
混合二阶导 ∂²L/∂V̂∂V
内层损失对预测值 V̂ 和目标值 V 的交叉二阶偏导。它决定外层能否给 W_V 传梯度;为零的损失(如 L1)会让 TTT 学不动。
全批量梯度下降(full-batch, B=N)
用整段序列的全部 K-V 作为单个内层批量做一步更新。视觉里单 epoch 全批量效果最好(与语言相反)。
门控线性单元(GLU)
用乘法门控的线性结构。ViT³ 用简化版 FC(x)⊙SiLU(FC(x)) 作内层模型,把线性状态容量翻倍且仍好优化。
深度卷积(DWConv)
逐通道卷积,参数和算力极省。作为 TTT 内层时能把全局上下文编进局部卷积核,天然融合全局与局部,是单内层模型里的最优选择(80.1%)。
DiT
扩散 Transformer,用于图像生成。把其注意力换成 ViT³ 块即得 DiT³。
MESA
一种几乎零成本缓解过拟合的训练策略,论文中带 ‡ 的结果即使用了它。