c3vdv2-SfM

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/SmartWhatt/c3vdv2-SfM

下载链接

链接失效反馈

官方服务：

资源简介：

C3VDv2（结肠镜3D视频数据集v2）是一个由约翰霍普金斯大学发布的医学内窥镜数据集，专为深度估计任务设计。该数据集经过重新打包，便于流式访问，包含去畸变的透视裁剪图像（512×512）、深度图、遮挡掩码以及相对位姿信息。数据集结构包括训练集、验证集和测试集，每个样本由连续的图像三元组（前一帧、当前帧、后一帧）及其相关数据组成。数据字段包括序列名称、帧索引、RGB图像、深度图（16位PNG，单位为米）、遮挡图（8位PNG）、相对位姿矩阵（4×4）、相机内参矩阵（3×3）以及监督标签可用性标志。数据集适用于深度估计、位姿估计等计算机视觉任务，并遵循CC BY 4.0许可。

创建时间：

2026-05-08

原始信息汇总

数据集概述：C3VDv2 — Colonoscopy 3D Video Dataset v2

许可证：Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类别：深度估计（depth-estimation）
语言：英语
标签：内窥镜、结肠镜、深度、姿态、医学

数据集来源与用途

该数据集是约翰霍普金斯大学发布的 C3VDv2 的重新打包版本，旨在支持流式访问。原始数据及知识产权归原作者和约翰霍普金斯大学所有。使用本数据集时，需遵守 CC BY 4.0 许可条款，并注明原始出处。

原始DOI：https://doi.org/10.7281/T1/JC64MK
数据集存档：https://archive.data.jhu.edu/dataset.xhtml?persistentId=doi:10.7281/T1/JC64MK

数据处理与样本结构

原始的全向鱼眼帧（1350×1080）已使用 Scaramuzza 相机模型（来自 camera_intrinsics.txt）转换为无畸变的透视裁剪图（512×512）。每个 Parquet 行 代表一个训练样本，包含以下字段：

字段	类型	描述
`dataset_name`	string	数据集名称
`sequence`	string	序列名称，例如 `c1_ascending_t1_v1`
`frame_idx`	int32	中心帧索引
`frame_idx_prev/curr/next`	int32	三元组中原始帧索引
`rgb_prev/curr/next`	image	无畸变的 512×512 PNG 彩色图像（HF Image 特征）
`depth`	image	16位 PNG 深度图，512×512，值转换为米：`val / 65535 * 0.1`
`occlusion`	image	8位 PNG 遮挡图，512×512，255=遮挡，0=清晰
`pose_curr2prev`	sequence[float64]	16 值的行主序 4×4 相对姿态矩阵
`pose_curr2next`	sequence[float64]	16 值的行主序 4×4 相对姿态矩阵
`K`	sequence[float32]	9 值的行主序 3×3 归一化相机内参
`has_depth`	bool	是否有深度标签
`has_occlusion`	bool	是否有遮挡标签
`has_pose`	bool	是否有姿态标签
`source_fps`	float32	原始帧率
`target_fps`	float32	目标帧率
`frame_stride`	int32	三元组相邻帧之间的原始帧步长

数据划分

数据集划分为训练、验证和测试集：

划分	轨迹	描述
train	t1, t2	每个区域两条轨迹
val	t4	保留的轨迹
test	t3	保留的轨迹

使用示例（Python）

可通过 datasets 库加载数据集并进行流式读取：

python from datasets import load_dataset import numpy as np

ds = load_dataset("SmartWhatt/c3vdv2-SfM", split="train", streaming=True)

for row in ds: rgb = np.array(row["rgb_curr"]) # 512×512×3 uint8 depth = np.array(row["depth"]).astype(np.float32) / 65535.0 * 0.1 # 512×512 米 occ = np.array(row["occlusion"]) > 0 # 512×512 布尔掩码 T_curr2prev = np.array(row["pose_curr2prev"]).reshape(4, 4) K = np.array(row["K"]).reshape(3, 3)

搜集汇总

数据集介绍

构建方式

C3VDv2-SfM数据集是基于约翰霍普金斯大学发布的C3VDv2原始资料重新封装而成。原始数据包含结肠镜检查中采集的1350×1080像素的鱼眼视频帧，通过Scaramuzza相机模型及内参参数对这些帧进行去畸变处理，并裁剪为512×512像素的透视图像。每个训练样本以Parquet行格式存储，包含连续三帧图像（前帧、当前帧、后帧）及其对应的深度图、遮挡掩膜、相对位姿矩阵和归一化相机内参矩阵。数据集按轨迹划分为训练集、验证集和测试集，分别对应两个完整轨迹、一个保留轨迹和一个测试轨迹，为监督学习任务提供了结构化的样本组织。

使用方法

用户可通过HuggingFace的datasets库加载该数据集，并选择流式模式以节省内存。使用时，将目标位姿矩阵和相机内参矩阵分别重构为4×4和3×3的矩阵，深度图通过除以65535再乘以0.1转换为米制深度。加载后的样本可直接用于深度估计网络的训练与评估，也可利用前后帧RGB图像和位姿信息构建视觉里程计或3D重建模型。推荐的实践是创建数据加载器时指定帧间隔参数，以控制时序片段的跨度。该数据集还可与遮挡掩膜结合，使模型在训练过程中忽略被遮挡的像素区域，从而提升深度预测的鲁棒性。

背景与挑战

背景概述

在计算机辅助内窥镜诊疗领域，三维场景理解对于提升手术导航精度与诊断可靠性至关重要。结肠镜检查作为结直肠癌筛查的金标准，其术中实时深度估计与相机位姿追踪技术长期受制于缺乏大规模、高质量且带有稠密标注的真实临床数据集。为弥合这一鸿沟，约翰霍普金斯大学研究团队于近年发布了C3VDv2数据集，该数据集源自多例真实结肠镜视频，由专业医师在临床环境下采集，并借助结构光系统与运动恢复结构（SfM）技术生成了精确的深度图、遮挡掩膜与帧间相对位姿。作为该领域的标杆性资源，C3VDv2为提升内窥镜视觉定位与三维重建算法的鲁棒性提供了关键训练基准，显著推动了医学影像分析任务中从仿真到真实场景的迁移研究。

当前挑战

本数据集所应对的核心领域挑战在于内窥镜场景下非刚性形变、镜面反射、纹理匮乏及光照剧烈变化等复杂条件对传统深度估计与位姿回归方法的制约。现有算法难以在这些弥漫性干扰中维持稳定的度量预测精度，而C3VDv2通过提供真实临床视频中的稠密三角网格深度与多帧配准数据，为训练具备泛化能力的神经网络模型奠定基础。在构建层面，挑战主要源自三方面：一是原始鱼眼图像需借助Scaramuzza模型进行几何校正并裁剪为标准512×512透视画幅，保证内参一致性；二是从高帧率视频中按特定步长抽取三帧组并计算相邻帧间的精确变换矩阵，需克服弱纹理区间的匹配歧义；三是深度图由结构光投影获取，其值域需经过归一化映射至物理米制，同时生成对应的遮档掩膜以剔除无效区域。

常用场景

经典使用场景

在医学影像计算领域，C3VDv2数据集以其高保真的结肠镜三维视频数据，成为深度学习模型训练与评估的标杆。该数据集提供了经过畸变校正的512×512 RGB图像、对应的深度图、遮挡掩膜以及帧间相对位姿，为单目深度估计、视觉里程计和三维重建等经典任务提供了精准的监督信号。研究者通常利用其时间连续的图像三元组，结合位姿与深度真值，设计并验证面向肠道内镜场景的几何感知模型。

解决学术问题

该数据集直面结肠镜视频中光照不均、纹理缺失和形变剧烈带来的深度估计与位姿恢复难题。通过提供高质量的真实深度和相对位姿标注，C3VDv2有效填补了医学内镜领域缺乏大规模、高精度三维标注数据的空白。它使得学术研究能够从传统的定性分析转向定量评估，推动了内镜场景下鲁棒深度感知算法的涌现，并为无监督或自监督学习方法提供了可靠的基准评估平台。

实际应用

在临床实践层面，C3VDv2所驱动的深度估计与位姿追踪技术可被集成至计算机辅助结肠镜检查系统中，实现内镜探头在肠道内的实时定位与三维导航。这有助于医生在息肉切除或活检时精准判断器械与病变组织间的空间关系，降低穿孔风险。此外，基于该数据集训练的模型还能辅助进行肠道表面地图构建，为基于虚拟结肠镜的远程诊断与手术规划提供关键支撑。

数据集最近研究