CT-ScanGaze

Name: CT-ScanGaze
Creator: University of Arkansas, University of Houston, University of Science VNU-HCM, FPT Software, Auburn University, University of Liverpool, MD Anderson Cancer Center
Published: 2025-07-17 03:21:05
License: 暂无描述

arXiv2025-07-17 更新2025-07-19 收录

下载链接：

https://github.com/UARK-AICV/CTScanGaze

下载链接

链接失效反馈

官方服务：

资源简介：

CT-ScanGaze是一个公开的医学数据集，由专家放射科医生在CT扫描分析过程中的眼动数据组成。该数据集包含了CT扫描、眼动数据、详细的报告和发现。数据集的创建过程涉及从私人医院的胸部和腹部CT扫描数据集中收集数据，并使用Tobii眼动追踪器和麦克风记录放射科医生的眼动数据和音频报告。数据集的内容包括909个CT扫描，每个扫描都伴随着扫描路径、放射学报告和发现。该数据集旨在解决CT成像中扫描路径预测等关键问题，并为3D医学体积的可视搜索模式预测提供基准。

CT-ScanGaze is a public medical dataset consisting of eye-tracking data collected by expert radiologists during CT scan analysis. This dataset includes CT scans, eye-tracking records, detailed reports and clinical findings. The dataset was developed by collecting data from a private hospital's chest and abdominal CT scan dataset, and recording radiologists' eye-tracking data and audio reports using Tobii eye trackers and microphones. It contains 909 CT scans, each paired with corresponding scan paths, radiology reports and clinical findings. This dataset is designed to address critical issues such as scan path prediction in CT imaging, and serves as a benchmark for visual search pattern prediction in 3D medical volumes.

提供机构：

University of Arkansas, University of Houston, University of Science VNU-HCM, FPT Software, Auburn University, University of Liverpool, MD Anderson Cancer Center

创建时间：

2025-07-17

搜集汇总

数据集介绍

构建方式

CT-ScanGaze数据集的构建采用了多模态数据采集与处理流程，通过专业放射科医师在自然阅片场景下的眼动追踪实验完成。数据采集系统整合了Tobii眼动仪、DICOM文件解析、屏幕录像和语音报告四类同步数据流，采用OCR技术建立视频帧与CT切片的映射关系，并通过时空配准将二维注视点坐标转化为三维体空间中的(x,y,z,t)四元组。报告文本通过语音识别技术转录，并采用专业医学标签系统SARLE提取放射学发现，最终形成包含909个CT体积的标准化数据集。

特点

该数据集的核心特征体现在三维体空间中的注视路径建模能力，包含131,618个CT切片与4,772分钟的眼动数据。不同于现有二维医学眼动数据集，其独特价值在于完整记录了放射科医师在轴向、矢状面和冠状面间的立体视觉搜索策略，包括跨切片回溯检查等专业行为模式。数据集提供原始与简化双版本注视序列，通过MultiMatch算法在保留关键眼动模式的同时将平均注视点从543个优化至222个，并配套提供放射报告文本与结构化临床发现标签。

使用方法

CT-ScanGaze支持三维扫描路径预测任务的端到端模型训练与评估。典型使用流程包括：通过Swin UNETR编码器提取96×96×96体素特征，结合三维位置编码输入Transformer架构；采用五折交叉验证评估时，需适配ScanMatch、MultiMatch等指标至三维空间；建议利用合成预训练策略缓解数据规模限制，即将EGD和REFLACX等二维眼动数据通过CXR-to-CT转换与坐标映射生成伪三维训练样本。数据集同时支持放射学视觉行为分析、可解释AI等衍生研究方向。

背景与挑战

背景概述

CT-ScanGaze是由美国阿肯色大学、休斯顿大学、MD安德森癌症中心等机构联合研发的首个公开CT扫描眼动追踪数据集，发布于2025年。该数据集旨在解决医学影像分析中三维体积扫描路径建模的核心问题，包含909例胸部及腹部CT扫描数据，配套专业放射科医师的凝视轨迹、放射学报告及临床发现。通过捕捉放射科医师在CT阅片过程中的三维眼动模式，该数据集为开发可解释的计算机辅助诊断系统提供了关键基础，填补了现有医学眼动数据仅限于二维影像的空白，对推动三维医学影像的视觉注意力研究具有里程碑意义。

当前挑战

CT-ScanGaze面临的挑战主要体现在两个维度：领域问题方面，需解决三维医学影像特有的跨切片导航、空间连续性建模等难题，克服传统二维扫描路径预测模型无法捕捉放射科医师深度搜索策略的局限；数据构建方面，需处理CT体积数据的高维度复杂性（单案例平均186层512×512分辨率切片），通过多模态数据同步技术整合眼动仪、DICOM文件和语音报告，并开发专用算法简化平均543个/案例的密集凝视点数据。此外，将二维凝视数据转换为三维合成数据的预训练流程设计，以及小样本（相较COCO-Search18的6,202图像）下的模型过拟合风险，均为关键技术挑战。

常用场景

经典使用场景

在医学影像分析领域，CT-ScanGaze数据集为研究放射科医生在阅读CT扫描时的眼动模式提供了独特资源。该数据集通过捕捉专家放射科医生的三维注视数据，为开发可解释的计算机辅助诊断系统奠定了基础。其经典使用场景包括训练和评估三维扫描路径预测模型，如论文中提出的CT-Searcher，这些模型能够模拟放射科医生在CT体积中的视觉搜索行为。

解决学术问题

CT-ScanGaze数据集解决了医学影像分析中几个关键学术问题。首先，它填补了公开可用的三维医学眼动数据集的空白，使得研究放射科医生在CT阅读中的复杂眼动策略成为可能。其次，数据集支持开发新型的三维扫描路径预测算法，克服了现有二维模型无法处理跨切片导航和时空连续性的局限。此外，通过将放射科医生的注视数据与诊断报告关联，该数据集为可解释AI研究提供了重要基础。

衍生相关工作

CT-ScanGaze数据集已衍生出多个重要研究方向和相关工作。最直接的是论文中提出的CT-Searcher模型，这是首个专门针对CT体积的三维扫描路径预测器。此外，数据集启发了从二维到三维注视数据的转换方法，通过利用现有的二维胸部X光数据集来预训练三维模型。在更广泛的领域，该数据集还促进了可解释报告生成、基于注意力的分类等研究方向的发展，为医学影像分析开辟了新的可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集