Hexo

Video Gen Post-Training 研究分析

Video Gen Post-Training 研究分析

Video Gen Post-Training 研究分析按照 Goal-driven research 方法论构建 Literature Tree 和 Challenge-Insight Tree，并识别研究空间。一、Literature Tree（Novelty Tree） General Goal 让视频生成模型生成符合物理规律、用户偏好、语义准确、时空一致的高质量视频（Video Ge

2026-03-20

博士科研

#生成模型 #Diffusion #Transformer #Video Generation #Post-Training

Video Gen Post-Training 选题分析

Video Gen Post-Training 选题分析

Video Gen Post-Training 选题分析按照研究方法论中的选题步骤：精确化 failure case → 判断 well-established solution 归属（4种情况）→ 确定技术挑战 → 选题决策。选题判断框架（来自方法论）情况描述建议情况1 相同I/O任务，已有不错解决方案，只是有些地方还不够好必须换题情况2 I/O变化/多个不同

2026-03-20

博士科研

#生成模型 #Diffusion #Transformer #Video Generation #Post-Training

Driving with DINO：用视觉表征破解 Sim2Real 的一致性—真实性困境

Driving with DINO：用视觉表征破解 Sim2Real 的一致性—真实性困境

论文主页：DwD Project Page 自动驾驶的闭环验证（closed-loop evaluation）一直是一个令人头疼的问题：在真实道路上测试代价高昂，危险案例（corner cases）又极难复现；而仿真器虽然提供了近乎无限的可扩展性，却因视觉保真度不足而与现实世界存在显著的域差距（domain gap）。如何弥合这道鸿沟，一直是自动驾驶数据工程的核心命题之一。这篇博客介绍我们的

2026-03-09

科研论文

#自动驾驶 #生成模型 #Diffusion #Sim2Real #DINO

DreamFragment——3D-Instance aware的多物体 3D 场景生成

DreamFragment——3D-Instance aware的多物体 3D 场景生成

论文主页：DreamFragment Project Page 这是我研一期间在实验室做的工作 DreamFragment，在这篇博客中，我先尽量用介绍paper的视角介绍一下我这篇工作都干了什么。而下一篇博客我将和大家介绍一下这篇工作幕后的design space和想法，我认为可能更加有趣和给人启发。 3D多物体生成的key challenge 是：如何从文字描述中生成多个物体相互交互的复杂

2026-03-03

科研论文

#生成模型 #Diffusion #3D Generation #Gaussian Splatting #Text-to-3D #多物体场景

MDMPro：smpl motion2motion diffusion model

MDMPro：smpl motion2motion diffusion model

这是本科期间做的一个科研项目，要解决的问题是：在乒乓球对打场景下，给定对手的 SMPL 动作序列，如何预测并生成己方合理的动作响应。这种数据驱动类的work包含了数字人动捕的几个核心pipe——数据从哪里来、动作序列用什么表示、以及如何在条件生成中balance好语义准确性与多样性之间的张力。

2026-03-03

本科科研&工程

#生成模型 #Diffusion #Transformer #SMPL #姿态估计 #数字人

视觉表征漫谈2——VFM Tokenizer Design Space for Image Generation

视觉表征漫谈2——VFM Tokenizer Design Space for Image Generation

上一次我们聊到了 VAVAE[1] 和 RAE[2] 类工作的困境，以及可能的解法。这种解法可能是 DINOv4 探索的方案——一个在训练 VFM 的时候就能够良好保持住结构等信息的、模型参数量大的、数据更 diverse 的（比如见过很多字，这样高频信息的 gap 似乎有机会弥补），这样训练出来的 tokenizer 既保持了语义，又具备了很好的重建能力，但似乎是很久之后才会做到的事情。有

2026-03-02

科研随笔

#生成模型 #Diffusion #视觉表征 #VAE

视觉表征漫谈1——从 VAVAE 到 RAE

视觉表征漫谈1——从 VAVAE 到 RAE

表征和 VAE、Diffusion 的关系事情的一开始要从 VAVAE[1] 和 REPA[2] 说起。视觉表征（Visual Foundation Model，以下统一简写成 VFM），诸如 DINOv2[3]、DINOv3[4]、MAE[5]，让神经网络在高维的隐空间（Latent Space）中学会了理解现实世界的深层物理与语义逻辑，继而可以使用这个通用的隐空间表征作为各种复杂下游视觉

2026-02-28

科研随笔

#生成模型 #Diffusion #视觉表征 #VAE

在公司集群上用 SLURM 跑多机多卡训练

在公司集群上用 SLURM 跑多机多卡训练

相信大家一开始最头疼的任务之一，就是把一个已经支持分布式训练的模型跑到多台机器上。理论上听起来很简单——代码已经写好了，只需要run就行。但真正上手之后才发现，集群环境、网络配置、进程同步……每一个环节都有坑。遂出现这篇博客记录一下完整的流程。为什么要用 SLURM？公司的 GPU 集群统一由 SLURM（Simple Linux Utility for Resource Managemen

2025-10-09

工程实践

#SLURM #分布式训练 #HPC #PyTorch