SurgCount-HD

Name: SurgCount-HD
Creator: 纽约州立大学布法罗分校
Published: 2026-02-12 00:49:37
License: 暂无描述

arXiv2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/rishi1134/CoLSR.git

下载链接

链接失效反馈

官方服务：

资源简介：

SurgCount-HD是由纽约州立大学布法罗分校研究团队构建的高密度手术器械计数数据集，包含1,464张真实临床场景中紧密排列的手术器械图像，重点标注了器械把手的边界框。数据集通过平移和旋转增强处理，分为1,236张训练图像和228张测试图像，所有图像短边统一调整为800像素并保持原始宽高比。该数据集旨在解决手术室中高密度器械自动计数难题，通过模拟人类顺序视觉推理过程提升计数准确性，为手术安全协议提供技术支持。

SurgCount-HD is a high-density surgical instrument counting dataset constructed by the research team from the State University of New York at Buffalo. It contains 1,464 images of tightly arranged surgical instruments captured in real clinical scenarios, with key annotations of bounding boxes for instrument handles. The dataset is processed with translation and rotation augmentation, and split into 1,236 training images and 228 test images. All images are uniformly resized to have a shorter side of 800 pixels while preserving the original aspect ratio. This dataset aims to address the challenge of automatic counting of high-density surgical instruments in operating rooms, improve counting accuracy by simulating human sequential visual reasoning processes, and provide technical support for surgical safety protocols.

提供机构：

纽约州立大学布法罗分校

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在手术器械计数领域，高密度场景下的视觉杂乱与对象紧密堆积使得自动化计数面临严峻挑战。SurgCount-HD数据集的构建过程体现了严谨的临床数据采集与标注规范。该数据集共包含1,464张高密度手术器械图像，均采集自真实手术准备场景，聚焦于器械手柄朝向摄像头的紧凑布局。所有图像经过平移与旋转增强处理，并划分为1,236张训练图像与228张测试图像。标注工作通过Roboflow平台由多位领域专家手动完成，针对器械手柄进行边界框标注，形成单一类别“圆形器械手柄”的标注体系。图像预处理阶段将短边统一缩放至800像素并保持原始宽高比，确保了数据的一致性与模型训练的稳定性。

特点

SurgCount-HD数据集的核心特点在于其高度密集的器械排列与真实的临床复杂性。图像中手术器械以紧密簇拥的方式呈现，存在严重的视觉遮挡与边界模糊现象，模拟了实际手术室中器械清点的极端场景。数据集专注于手柄区域的标注，这要求模型具备精细的局部特征识别能力。其挑战性通过大型视觉语言模型的测试得到验证，例如GPT-5在示例图像中产生了显著计数误差，凸显了该数据集对现有方法构成的严峻考验。这种高密度与高相似性的组合，为开发鲁棒的序列化视觉推理模型提供了至关重要的基准平台。

使用方法

该数据集主要用于训练与评估高密度手术器械计数模型，特别是基于序列化视觉推理的框架。典型使用流程始于数据加载与预处理，将图像调整为统一尺寸并应用标注信息。模型训练可依托视觉链生成器，结合Transformer架构提取多尺度空间特征，并融入类别特定的可学习文本标记以增强语义特异性。训练目标融合了边界框定位损失、分类损失及创新的相邻损失，后者通过约束预测对象的空间顺序来模拟人类计数的序列特性。推理阶段，模型接收单张图像输入，输出器械手柄的边界框预测，并通过后处理算子消除冗余检测，最终实现快速准确的器械计数。该数据集为验证计数模型在真实复杂场景中的空间推理能力提供了标准化测试环境。

背景与挑战

背景概述

SurgCount-HD数据集由纽约州立大学布法罗分校的研究团队于2026年提出，专注于高密度手术器械计数这一临床关键任务。该数据集包含1,464张真实手术场景中紧密排列的手术器械图像，旨在通过自动化计数技术提升手术室工作效率与患者安全。其核心研究问题在于解决传统人工计数在视觉杂乱、器械遮挡的高密度环境下易出错、耗时长的问题，为计算机视觉与医疗人工智能的交叉领域提供了重要的基准数据，推动了手术流程智能化的发展。

当前挑战

SurgCount-HD数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，高密度手术器械计数需克服视觉杂乱、器械紧密排列及严重遮挡带来的识别困难，传统检测或密度估计方法难以模拟人类顺序计数的空间推理过程，导致计数精度不足；其二，在构建过程中，数据标注因器械高度相似与密集分布而极为耗时，需要多名领域专家参与以确保标注一致性，且采集图像需涵盖多样化的临床场景以保障数据代表性，这些因素共同增加了数据集构建的复杂性与成本。

常用场景

经典使用场景

在手术室环境中，高密度手术器械的准确计数是保障患者安全的关键环节。SurgCount-HD数据集通过提供1,464张高密度手术器械图像，为自动化计数模型提供了标准化测试平台。该数据集最经典的使用场景在于评估和优化视觉计数算法在器械紧密堆积、视觉遮挡严重条件下的性能，模拟真实手术准备阶段器械密集摆放的复杂情况，推动计算机视觉与医疗安全的交叉研究。

衍生相关工作

围绕SurgCount-HD数据集，研究者们衍生出一系列经典工作，例如基于视觉链的空间推理框架（CoLSR）及其与多模态大语言模型（如Qwen、GPT-5）的对比研究。这些工作进一步探索了提示调优（Prompt Tuning）、参数高效微调（PEFT）等技术在密集计数任务中的应用，推动了物体检测、密度估计与序列建模方法的融合，为后续高密度视觉分析研究开辟了新方向。

数据集最近研究