TransPhy3D
收藏arXiv2025-12-30 更新2025-12-31 收录
下载链接:
https://daniellli.github.io/projects/DKT/
下载链接
链接失效反馈官方服务:
资源简介:
TransPhy3D是由北京人工智能研究院等机构联合创建的首个透明物体合成视频数据集,包含1.1万段高质量渲染视频(总计132万帧)。该数据集通过Blender/Cycles物理引擎渲染生成,整合了574个静态资产和参数化生成的3D模型,搭配玻璃/塑料/金属等材质库,采用基于物理的光线追踪和OptiX降噪技术生成RGB+深度+法线多模态数据。数据集通过程序化场景构建和动态相机轨迹采样,模拟了复杂的光学现象(折射/反射/透射)。主要应用于透明物体深度估计、机器人抓取等计算机视觉任务,旨在解决透明物体在传统深度感知中的物理歧义问题。
提供机构:
北京人工智能研究院; 南加州大学; 清华大学; 北京航空航天大学; 武汉大学; 上海交通大学; 欧洲创新技术学院宁波分院; 香港中文大学·深圳未来网络研究院; 新加坡国立大学
创建时间:
2025-12-30
原始信息汇总
数据集概述
数据集名称
TransPhy3D
数据集简介
TransPhy3D是一个合成的透明/反射场景视频语料库,用于透明物体深度和法线估计研究。
数据集规模
- 包含11,000个序列。
- 共计1.32百万帧。
数据生成与内容
- 渲染工具:使用Blender/Cycles进行渲染。
- 场景构成:由精选的类别丰富的静态资产和形状丰富的程序化资产库组装而成,并配以玻璃/塑料/金属材料。
- 渲染内容:使用基于物理的光线追踪和OptiX去噪技术,渲染RGB图像、深度图和法线图。
- 用途:用于训练视频扩散模型,学习视频到视频的深度(和法线)转换器。
相关模型与资源
- 模型:DKT(一个用于透明物体、野外、任意长度视频深度和法线估计的基础模型)。
- 演示与资源链接:
- 代码:https://daniellli.github.io/projects/DKT/
- Hugging Face深度演示(1.3B版本):https://daniellli.github.io/projects/DKT/
- Hugging Face深度演示:https://daniellli.github.io/projects/DKT/
- Hugging Face法线演示:https://daniellli.github.io/projects/DKT/
- Hugging Face模型:https://daniellli.github.io/projects/DKT/
- Hugging Face数据集:https://daniellli.github.io/projects/DKT/
- 其他模型:https://daniellli.github.io/projects/DKT/
- 其他数据集:https://daniellli.github.io/projects/DKT/
性能与应用
- 零样本性能:在涉及透明度的真实和合成视频基准测试(ClearPose, DREDS, TransPhy3D-Test)中达到最先进水平。
- 下游应用:促进机器人抓取任务、策略学习等下游应用。集成到抓取系统中可提高跨透明、反射和漫反射表面的成功率。
- 变体:DKT-Normal在ClearPose上取得了最佳的视频法线估计结果。
- 紧凑版本:一个1.3B参数的版本运行速度约为每帧0.17秒(分辨率832×480)。
搜集汇总
数据集介绍

构建方式
在透明与高反射物体感知领域,数据稀缺长期制约着模型发展。TransPhy3D的构建采用了一套系统化的合成渲染流程,首先整合了类别丰富的静态三维资产与形状多样的参数化三维资产,形成涵盖玻璃、塑料、金属等多种材质的资产库。随后通过物理仿真动态组合场景,并采用基于光线追踪的Blender/Cycles渲染引擎,模拟复杂的光线传播、折射与反射现象。相机轨迹设计为环绕物体中心的圆周路径并加入正弦扰动,最终通过NVIDIA OptiX降噪器优化图像质量,生成了包含1.1万段视频、总计132万帧的RGB-D及法线标注数据集。
使用方法
TransPhy3D主要作为训练与验证资源,用于提升模型在复杂光学场景下的深度与法线估计能力。研究者可将其与现有的单帧合成数据集进行混合,通过协同训练策略微调预训练的视频扩散模型。具体而言,可将RGB与深度潜变量在通道维度拼接后输入扩散变换器,并采用LoRA等参数高效微调技术,使模型继承生成先验的同时适应透明物体感知任务。训练所得的模型可直接用于对任意长度输入视频进行零样本推理,输出时序一致的深度或法线图,进而服务于机器人抓取、三维重建等下游应用。
背景与挑战
背景概述
透明与高反射物体的三维感知是机器人视觉与自主操作领域的核心难题,传统基于立体匹配或飞行时间法的深度传感技术因光线折射、反射等复杂光学效应而失效,导致深度图存在空洞与时序不稳定。为应对这一挑战,北京人工智能研究院、清华大学等机构的研究团队于2025年创建了TransPhy3D数据集。该数据集作为首个专注于透明与高反射物体的合成视频数据集,包含1.1万段序列共计132万帧数据,通过Blender/Cycles物理渲染引擎生成RGB、深度与法线真值。其核心研究问题在于为视频扩散模型提供高质量监督数据,以挖掘生成式先验中隐含的光学物理规律,进而推动透明物体视频深度与法线估计技术的发展,为机器人精细操作提供鲁棒且时序一致的三维感知基础。
当前挑战
TransPhy3D数据集旨在解决透明与高反射物体视频深度估计这一领域难题,其核心挑战在于透明材质导致的光学歧义性,使得传统判别式方法难以获得可靠监督信号,预测结果常存在空间缺失与时序抖动。在数据集构建过程中,研究团队面临多重挑战:首先,需收集兼具类别多样性与形状丰富性的三维资产库,并通过物理仿真生成自然场景布局;其次,设计能够模拟复杂光路传播、折射与反射现象的渲染管线,确保合成数据的物理真实性;最后,需平衡渲染质量与计算成本,并设计有效的训练策略以融合图像与视频数据,避免模型在适应新领域时发生灾难性遗忘。
常用场景
经典使用场景
在透明与高反射物体三维感知领域,TransPhy3D数据集为视频深度与法线估计任务提供了关键支持。其最经典的应用场景在于训练和评估基于视频扩散模型的深度估计算法,特别是针对透明物体在动态视频序列中的几何信息恢复。该数据集通过物理渲染技术生成了包含复杂光传输现象(如折射、反射)的高质量合成视频,使得模型能够学习到透明材质的内在光学规律,从而在零样本设置下实现对真实世界任意长度视频的鲁棒深度预测。
解决学术问题
TransPhy3D数据集有效解决了透明物体感知中长期存在的若干学术难题。传统深度感知方法(如立体视觉、飞行时间法)因透明物体的折射、反射特性而失效,导致深度图中出现空洞与时间不一致问题。该数据集通过大规模合成视频数据,为模型提供了学习透明物理规律的监督信号,从而推动了从判别式到生成式深度估计的范式转变。其意义在于证明了大规模视频扩散模型已内化光学先验,能够通过轻量级适配高效迁移至透明物体感知任务,显著提升了深度估计的准确性与时间一致性,为机器人视觉等下游任务奠定了可靠基础。
实际应用
在实际应用层面,TransPhy3D数据集驱动的模型在机器人操作系统中展现出重要价值。集成至抓取流水线后,其预测的深度信息能够显著提升机械臂在透明、反射及漫反射等多种表面上的抓取成功率。例如,在桌面操作场景中,模型生成的时序一致深度图可输入至AnyGrasp等抓取姿态生成系统,进而通过轨迹规划与执行完成对复杂材质物体的可靠抓取。这解决了传统RGB-D相机在透明物体前失效的痛点,为工业分拣、家庭服务等机器人应用提供了鲁棒的三维感知能力。
数据集最近研究
最新研究方向
在透明物体感知领域,TransPhy3D数据集的推出标志着从传统判别式深度估计向生成式视频扩散模型迁移的重要转折。该数据集通过物理渲染技术构建了包含丰富透明与高反射物体的视频序列,为模型训练提供了高质量的时空标注。前沿研究聚焦于利用预训练视频扩散模型所内化的光学先验知识,通过轻量级LoRA适配器将其重定向为视频到视频的深度与法线估计任务。这一范式不仅解决了透明物体因折射、反射导致的深度感知难题,还显著提升了预测的时空一致性,为零样本泛化至真实世界场景奠定了坚实基础。相关成果已成功应用于机器人抓取等实际任务,展现出在动态非结构化环境中实现鲁棒3D感知的潜力,推动了生成式先验在具身智能中的广泛应用。
相关研究论文
- 1Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation北京人工智能研究院; 南加州大学; 清华大学; 北京航空航天大学; 武汉大学; 上海交通大学; 欧洲创新技术学院宁波分院; 香港中文大学·深圳未来网络研究院; 新加坡国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成



