c3vdv2-SfM
收藏数据集概述:C3VDv2 — Colonoscopy 3D Video Dataset v2
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
- 任务类别:深度估计(depth-estimation)
- 语言:英语
- 标签:内窥镜、结肠镜、深度、姿态、医学
数据集来源与用途
该数据集是约翰霍普金斯大学发布的 C3VDv2 的重新打包版本,旨在支持流式访问。原始数据及知识产权归原作者和约翰霍普金斯大学所有。使用本数据集时,需遵守 CC BY 4.0 许可条款,并注明原始出处。
- 原始DOI:https://doi.org/10.7281/T1/JC64MK
- 数据集存档:https://archive.data.jhu.edu/dataset.xhtml?persistentId=doi:10.7281/T1/JC64MK
数据处理与样本结构
原始的全向鱼眼帧(1350×1080)已使用 Scaramuzza 相机模型(来自 camera_intrinsics.txt)转换为无畸变的透视裁剪图(512×512)。每个 Parquet 行 代表一个训练样本,包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
dataset_name |
string | 数据集名称 |
sequence |
string | 序列名称,例如 c1_ascending_t1_v1 |
frame_idx |
int32 | 中心帧索引 |
frame_idx_prev/curr/next |
int32 | 三元组中原始帧索引 |
rgb_prev/curr/next |
image | 无畸变的 512×512 PNG 彩色图像(HF Image 特征) |
depth |
image | 16位 PNG 深度图,512×512,值转换为米:val / 65535 * 0.1 |
occlusion |
image | 8位 PNG 遮挡图,512×512,255=遮挡,0=清晰 |
pose_curr2prev |
sequence[float64] | 16 值的行主序 4×4 相对姿态矩阵 |
pose_curr2next |
sequence[float64] | 16 值的行主序 4×4 相对姿态矩阵 |
K |
sequence[float32] | 9 值的行主序 3×3 归一化相机内参 |
has_depth |
bool | 是否有深度标签 |
has_occlusion |
bool | 是否有遮挡标签 |
has_pose |
bool | 是否有姿态标签 |
source_fps |
float32 | 原始帧率 |
target_fps |
float32 | 目标帧率 |
frame_stride |
int32 | 三元组相邻帧之间的原始帧步长 |
数据划分
数据集划分为训练、验证和测试集:
| 划分 | 轨迹 | 描述 |
|---|---|---|
| train | t1, t2 | 每个区域两条轨迹 |
| val | t4 | 保留的轨迹 |
| test | t3 | 保留的轨迹 |
使用示例(Python)
可通过 datasets 库加载数据集并进行流式读取:
python from datasets import load_dataset import numpy as np
ds = load_dataset("SmartWhatt/c3vdv2-SfM", split="train", streaming=True)
for row in ds: rgb = np.array(row["rgb_curr"]) # 512×512×3 uint8 depth = np.array(row["depth"]).astype(np.float32) / 65535.0 * 0.1 # 512×512 米 occ = np.array(row["occlusion"]) > 0 # 512×512 布尔掩码 T_curr2prev = np.array(row["pose_curr2prev"]).reshape(4, 4) K = np.array(row["K"]).reshape(3, 3)




