ProstaTD

github2025-06-05 更新2025-06-10 收录

下载链接：

https://github.com/SmartHealthX/ProstaTD

下载链接

链接失效反馈

官方服务：

资源简介：

ProstaTD是一个大规模多源手术三元组检测数据集，从21个机器人辅助前列腺切除术视频中整理而来，涵盖了多个机构的完整手术过程，包含60,529个标注帧和165,567个结构化手术三元组实例（器械-动词-目标），提供了所有器械的精确边界框定位和临床验证的时间动作边界。数据集整合了ESAD和PSI-AVA数据集，并添加了自己的注释（未使用原始数据注释）。还包括自己收集的视频。提供了7种器械类型、10种动作、10种解剖/非解剖目标和89种三元组组合（不包括背景）的实例级注释。数据集分为训练集（14个视频）、验证集（2个视频）和测试集（5个视频），注释以每秒1帧提供。

ProstaTD is a large-scale, multi-source surgical triplet detection dataset, meticulously compiled from 21 robotic-assisted radical prostatectomy videos. It encompasses comprehensive surgical procedures from multiple institutions, containing 60,529 annotated frames and 165,567 structured surgical triplet instances (instrument-verb-target). The dataset provides precise bounding box localization for all instruments and temporally validated action boundaries. The dataset integrates the ESAD and PSI-AVA datasets and adds its own annotations (without using the original data annotations). It also includes self-collected videos. It provides instance-level annotations for 7 instrument types, 10 actions, 10 anatomic/non-anatomic targets, and 89 triplet combinations (excluding the background). The dataset is divided into training set (14 videos), validation set (2 videos), and test set (5 videos), with annotations provided at a rate of one frame per second.

创建时间：

2025-05-28

原始信息汇总

ProstaTD 数据集概述

基本描述

数据集名称: ProstaTD (Prostate Triplet Detection)
类型: 手术视频数据集
用途: 结构化手术三元组检测（instrument-verb-target）
数据来源: 21个机器人辅助前列腺切除术视频
标注范围: 全手术过程，跨多机构采集

核心数据指标

总标注帧数: 60,529帧
三元组实例数: 165,567个
标注频率: 1帧/秒
分区构成:
- 训练集: 14个视频
- 验证集: 2个视频
- 测试集: 5个视频

标注体系

标注维度:
- 7种器械类型
- 10种动作类型
- 10种解剖/非解剖目标
- 89种有效三元组组合（不含背景类）
标注格式: 10值元组（当前可用前4位）:

[triplet_id, instrument_id, verb_id, target_id, track_id, triplet_track_id, cx, cy, w, h]

数据特性

临床验证: 包含经临床验证的时间动作边界
数据连续性: 视觉连续帧（已剔除非手术场景/环境干扰帧）
扩展性: 整合ESAD和PSI-AVA数据集（不含原始标注）

获取方式

访问申请: 需填写请求表格
响应时效:
- 自动回复（1小时内）
- 人工处理（2个工作日内）

使用限制

许可类型: CC BY-NC-SA 4.0
使用范围: 仅限学术研究
商业用途: 明确禁止
模型输出要求: 必须包含实验数据警告提示

版本更新

v1.1: 2025/02/06发布（GitHub）
v1.0: 2025/05/16发布（Kaggle）

待发布内容

边界框标注
追踪ID标注
LabelMe原始JSON文件
标注可视化工具

引用格式

bibtex @article{chen2025prostatd, title = {ProstaTD: A Large-scale Multi-source Dataset for Structured Surgical Triplet Detection}, author = {Chen, Yiliang and Li, Zhixi and Xu, Cheng and Liu, Alex Qinyang and Xu, Xuemiao and Teoh, Jeremy Yuen-Chun and He, Shengfeng and Qin, Jing}, journal = {arXiv preprint arXiv:2506.01130}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在机器人辅助前列腺切除术领域，ProstaTD数据集的构建采用了多源视频整合与精细化标注策略。研究团队从21台完整手术视频中提取关键帧，以每秒1帧的频率进行采样，通过融合ESAD和PSI-AVA数据集并新增自主采集视频，构建了包含60,529标注帧的大规模数据集。标注过程采用结构化三元组（器械-动作-目标）范式，通过临床验证确保时间动作边界的精确性，同时保留原始视频的视觉连续性，剔除了非手术场景或存在环境干扰的无效帧。

使用方法

研究者可通过官方申请表单获取数据集访问权限，建议使用Gmail邮箱以确保通讯畅通。使用时应遵循CC BY-NC-SA 4.0许可协议，严格限定于非商业科研用途。数据处理时需注意当前版本仅开放0-3位标注字段，其余字段暂以-1占位。配套工具方面，建议采用ultralytics框架进行计算，原ivtmetrics工具需经适配后方可使用。为确保研究合规性，任何基于该数据集开发的模型输出必须包含临床验证提示信息。

背景与挑战

背景概述

ProstaTD数据集是2025年由Yiliang Chen等学者联合推出的面向机器人辅助前列腺切除术的大规模结构化手术三元组检测数据集。该数据集整合了来自21台完整手术视频的60,529帧标注数据，包含165,567个（器械-动作-目标）三元组实例，覆盖7种器械类型、10种动作和10种解剖/非解剖目标。作为首个专注于手术场景结构化关系理解的多源数据集，其创新性地将ESAD和PSI-AVA数据集纳入统一标注体系，并通过临床验证的时间动作边界标注，为手术行为分析领域提供了细粒度研究基准。该数据集的发布显著推进了手术场景理解从单一物体识别向关系推理的范式转变。

当前挑战

在领域问题层面，ProstaTD致力于解决手术视频中器械与组织交互关系的细粒度建模挑战，其核心难点在于跨机构数据导致的器械操作差异性和组织形态多样性。构建过程中面临三重技术壁垒：多源视频的时空对齐需克服不同手术团队操作习惯的异构性；临床术语到计算标签的映射要求严格的医学知识验证；而连续帧间三元组实例的跟踪标注则涉及复杂的光流估计与跨模态匹配。当前版本仍存在4-9字段的标注待完善，反映出手术场景动态变化捕获与长时序关系建模这一开放性难题。

常用场景

经典使用场景

在机器人辅助前列腺切除术的手术视频分析领域，ProstaTD数据集为结构化手术三元组检测提供了丰富的标注资源。该数据集通过精确标注手术器械、动作动词和目标解剖结构的三元组关系，成为开发手术行为识别算法的基准测试平台。研究人员利用其大规模标注帧和多样化手术场景，能够训练深度学习模型准确识别手术过程中的关键操作步骤。

解决学术问题

ProstaTD有效解决了手术场景理解中的细粒度行为分析难题。通过提供165,567个结构化三元组实例，该数据集使研究者能够突破传统动作识别仅关注单一动作的局限，转而研究器械-动作-目标的复杂交互关系。其多机构来源的标注数据显著提升了算法在跨中心验证时的泛化能力，为手术技能评估和并发症预测等研究提供了数据基础。

实际应用

该数据集在智能手术室系统开发中展现出重要价值。基于ProstaTD训练的模型可实时解析手术视频流，生成结构化手术报告辅助临床决策。其精确的器械定位功能被应用于手术导航系统，通过增强现实技术为外科医生提供操作指引。部分医疗机构已将该数据集衍生的算法集成到手术机器人控制系统中，用于识别危险操作并发出预警。

数据集最近研究