Driving with DINO：用视觉表征破解 Sim2Real 的一致性—真实性困境

论文主页：DwD Project Page

自动驾驶的闭环验证（closed-loop evaluation）一直是一个令人头疼的问题：在真实道路上测试代价高昂，危险案例（corner cases）又极难复现；而仿真器虽然提供了近乎无限的可扩展性，却因视觉保真度不足而与现实世界存在显著的域差距（domain gap）。如何弥合这道鸿沟，一直是自动驾驶数据工程的核心命题之一。

这篇博客介绍我们的工作 DwD（Driving with DINO），一个基于视觉基础模型（Vision Foundation Model, VFM）特征的可控视频扩散框架，旨在把仿真渲染视频转换为照片级真实视频，同时保持与仿真输入的几何一致性。论文已发布在 arXiv:2602.06159。
DwD

问题背景：仿真器的视觉鸿沟

像 CARLA 这样的开源驾驶仿真器，在渲染成本和场景多样性之间做出了取舍——渲染出的画面往往呈现出"游戏感"（CG-like）的视觉特征，与真实摄像头采集的图像在纹理、光照、噪声分布上存在系统性偏差。一个在仿真数据上训练好的感知模型，在真实场景下的表现往往大幅下滑，这就是所谓的 Sim2Real 迁移问题。

近年来，以 ControlNet 为代表的可控视频扩散模型提供了一条新的解法思路：用仿真画面作为结构控制信号，驱动扩散模型生成真实感图像，同时保留仿真场景的几何布局。问题的关键在于——选什么作为中间表征（intermediate representation）？

核心矛盾：一致性—真实性困境

现有方法对中间表示的选择大致分为两个方向，而这两个方向恰好站在一个根本性矛盾的两端，我们将其称为 Consistency-Realism Dilemma（一致性—真实性困境）：

低层信号（边缘图、模糊图）：提供精确的结构约束，但代价是把仿真的 CG 纹理"烘焙"进生成结果——扩散模型被迫沿着 CG 的边缘和色块生成，真实感大打折扣。
高层信号（深度图、语义图、HD Map）：放弃了精细结构，允许扩散模型自由合成纹理，因而真实感更强——但结构信息的缺失会导致幻觉（hallucination），例如凭空生成不存在的车道线，或错误地改变道路布局。

有没有"既要又要"的办法？多控制分支方案尝试把低层和高层信号同时输入，但这带来了巨大的显存开销，以及不同模态之间的梯度冲突，实践中很难收敛。

我们的思路：DINO 特征作为统一桥梁

DwD的pipeline
我们注意到一个有趣的特性：以 DINOv3 为代表的视觉基础模型，其特征空间天然地编码了从低层（精细纹理）到高层（语义布局）的连续谱系信息。这种多尺度的表示能力，正是 DINO 在分类、检测、分割等多粒度任务上表现出色的根本原因。

核心假设：DINO 特征可以作为一个统一的中间桥梁，同时携带足够的结构信息（对应低层控制信号的优势）和语义抽象（对应高层控制信号的优势），从而在单个控制分支内自然地调和一致性与真实性的矛盾。

然而，直接将 DINO 特征注入 ControlNet 行不通——实验表明这会导致 纹理泄漏（texture leakage）：DINO 特征足够强大到可以近乎完整地重建输入图像，使得扩散模型本质上在"记忆并复制"仿真纹理，而非生成真实感图像。此外，DINOv3 的空间下采样率高达 16 $\times$ ，导致边界处的结构细节大量丢失；在时序维度上，逐帧独立编码的 DINO 特征缺乏运动连贯性。

DwD

为了解决上述问题，我们提出 DwD 框架，其核心是 VFM-Prism 模块，由三个相互配合的组件构成。

1. 空间分辨率增强（Spatial Resolution Enhancer）

DINOv3 相比旧版 DINO 有一个关键优势：得益于 RoPE-box jittering 位置编码，它对高分辨率输入具有良好的鲁棒性。我们利用这一特性，在送入 DINO 编码器之前，先将输入视频上采样 $S$ 倍，从而获得更高分辨率的特征图 $Z_{c} \in R^{T \times \frac{H \times S}{16} \times \frac{W \times S}{16} \times C}$ 。

这一做法在输入空间（而非特征空间）进行上采样，实验表明优于 Featup、Anyup 等后验特征上采样方案，能更好地保留对象边界的结构细节。随之引入的尺寸不匹配，由 Spatial Alignment Module（步长卷积 + 残差块）来弥合，将特征图压缩回 DiT 所需的 $\frac{H}{16} \times \frac{W}{16}$ 尺度。

Lower-dimensional PCA components encode coarse semantic layouts, whereas increasing the dimensions leads to the refinement of high-frequency details. Similarity maps are shown for two anchor points

2. 次要成分剪枝（Minor Components Pruning）

这是处理纹理泄漏的核心机制。我们采用 PCA 将高维 DINO 特征投影到 $k$ 维子空间，相当于保留主成分、丢弃次要成分。直觉上，PCA 的主成分编码全局语义和几何布局，而次要成分（低方差方向）则对应局部纹理细节——正是我们想要抑制的"CG 纹理噪声"。

然而，硬性截断有一个隐患：结构信息与外观信息的边界在特征空间中并不清晰，过激的维度削减（如 $k = 3$ ）会损失车道线等精细结构，导致语义模糊。

为此，我们提出 随机通道尾部剪枝（Random Channel Tail Drop）：训练时不使用固定的截断阈值，而是从预定义集合 $K = {k_{1}, k_{2}, \dots, k_{m}}$ 中随机采样 $k$ 值，并对超出当前 $k$ 的通道应用二值掩码置零。这种随机化策略相当于一种正则化，迫使模型学会在语义约束充足和不足的情况下均能生成一致的结果，从而提升了对不同 $k$ 值的鲁棒性。

在推理阶段， $k$ 成为一个可调旋钮：降低 $k$ 强调真实感（减少纹理泄漏），提高 $k$ 强调几何一致性。

3. 因果时序聚合器（Causal Temporal Aggregator）

The Spatial Alignment Module and Causal Temporal Aggregator
DINOv3 对每帧独立编码，导致时序维度上存在大量冗余，且与 DiT 块的输入需求在时间维度上不匹配。朴素的关键帧采样或双线性插值会破坏运动连续性，引发时序混叠（temporal aliasing）和运动模糊。

我们在 Spatial Alignment Module 中插入 因果卷积块，以因果方式对时序维度进行降采样。因果卷积的核心优势在于：每一帧的输出仅依赖于当前帧及历史帧，而不受未来帧的影响。这种历史上下文的显式保留，能有效抑制帧间抖动，提升生成视频的时序稳定性。

实验结果

DwD定性结果1
DwD定性结果2
数据集：在 nuPlan 数据集上训练，在 CARLA 仿真渲染的视频上进行评估。

评估维度：

视觉保真度：sFID / sKID（特征分布距离，采用语义感知采样策略构建 40 万对对齐样本）
感知真实感：CLIP-Real（正/负提示词嵌入比值，量化与真实摄影的对齐程度）
时序一致性：Motion-S（运动合理性）和 WarpSSIM（光流 warping 后的帧间结构相似性）
Sim2Real 一致性：mIoU（用预训练语义分割模型对比生成帧与仿真 GT 的语义一致性）

实验结论：

在 sFID/sKID 上，DwD 大幅领先所有 baseline，包括低层控制（边缘、模糊）和高层控制（深度、语义、HD Map）方法
CLIP-Real 与深度/语义等高层方法持平，远优于低层方法（后者实质上在复制 CG 纹理，CLIP-Real 与 CG 基准相差无几）
时序一致性全面优于基于高层信号的方法，略逊于边缘方法（后者高度保留 CG 结构故 WarpSSIM 偏高，但代价是完全丧失真实感）
mIoU 与低层控制信号相当，验证了几何一致性未因真实感提升而牺牲

消融分析关键发现：
$k = 8$ 为最优推理截断维度，兼顾结构引导与生成自由度
空间上采样倍数 $S = 4$ 在时序一致性上带来大幅提升，但过高 $S$ 会因 CG 边缘过于锐利而带来新的域差距
因果时序聚合器同时改善了 WarpSSIM 和 sFID/sKID，主因是显著减少了模糊帧和失真帧的比例

关于"一致性—真实性困境"的再思考

回顾整个工作，DwD 的本质是把"选哪种控制信号"这一离散的工程决策，转化为 DINO 特征空间内一个连续的权衡旋钮（通过 $k$ 调节）。这一转变的理论基础，在于 VFM 特征空间本身就是一个从纹理到语义的连续谱系，而 PCA 恰好提供了一种有原则的（principal-components-based）方式来在这个谱系上"滑动"。

这种思路或许对其他模态迁移问题也有一定启发：当两种需求存在内在张力时，与其设计两个相互竞争的专用模块，不如寻找一个天然编码了两者的统一表示，再通过轻量级的后处理来调节平衡点。

总结

DwD 以 DINOv3 特征作为仿真与现实之间的统一语义桥梁，通过 VFM-Prism 的三个组件（空间分辨率增强、次要成分剪枝与随机通道尾部剪枝、因果时序聚合器）系统性地解决了纹理泄漏、空间压缩和时序冗余三个核心挑战。实验结果验证了这一设计在视觉保真度、感知真实感、时序稳定性和 Sim2Real 一致性上的全面优势。

后续工作将探索在更大规模、更高分辨率的驾驶数据集上的扩展能力，以及 DwD 在闭环自动驾驶系统中的实际部署潜力。

科研论文

#自动驾驶 #生成模型 #Diffusion #Sim2Real #DINO

Driving with DINO：用视觉表征破解 Sim2Real 的一致性—真实性困境

https://azurerossi.github.io/blog/2026/03/09/sim2real/

作者

Yang Zihao

发布于

2026年3月9日

许可协议

Video Gen Post-Training 选题分析上一篇

DreamFragment——3D-Instance aware的多物体 3D 场景生成下一篇