ERUS-10K|医学影像分析数据集|计算机辅助诊断数据集

arXiv2024-08-19 更新2024-08-21 收录

医学影像分析

计算机辅助诊断

下载链接：

http://arxiv.org/abs/2408.10067v1

下载链接

链接失效反馈

资源简介：

ERUS-10K数据集由香港中文大学（深圳）等机构创建，包含77个直肠内超声视频和10,000个高质量注释帧，专门用于结直肠癌的分割、检测和浸润深度分期。数据集的创建旨在解决缺乏大规模高质量注释的直肠内超声数据集的问题，支持自动超声诊断技术的发展。该数据集的应用领域主要集中在医学影像分析，特别是结直肠癌的计算机辅助诊断。

提供机构：

香港中文大学（深圳）、深圳未来网络智能研究所、高性能计算研究所、深圳大数据研究院、川北医学院附属医院

创建时间：

2024-08-19

AI搜集汇总

数据集介绍

构建方式

ERUS-10K数据集的构建基于77个内窥镜超声视频，共包含10,000帧高分辨率标注图像。这些视频涵盖了结直肠癌的分割、检测和浸润深度分期等多种临床场景。数据集的标注由经验丰富的超声医师手动完成，确保了标注的高质量和临床相关性。此外，数据集还通过自适应扫描模式增强（ASMA）技术，将不同扫描模式（如线性扫描和凸面扫描）的图像进行转换，以增强模型的泛化能力。

特点

ERUS-10K数据集的特点在于其多样性和高质量标注。数据集不仅包含结直肠癌的分割和检测任务，还提供了肿瘤浸润深度的分期信息，覆盖了从T1到T4的不同阶段。此外，数据集中的图像来自不同的扫描模式，能够反映实际临床操作中的多样性。通过自适应扫描模式增强技术，数据集进一步平衡了不同扫描模式下的图像数量，减少了模型过拟合的风险。

使用方法

ERUS-10K数据集的使用方法主要包括数据预处理、模型训练和评估。在预处理阶段，用户可以通过自适应扫描模式增强技术将不同扫描模式的图像进行转换，以增强模型的泛化能力。在模型训练阶段，数据集可以用于训练结直肠癌分割模型，如自适应稀疏上下文变换器（ASTR），该模型通过稀疏上下文块（SCB）和稀疏上下文变换器（SCT）来提取帧间局部和全局特征。在评估阶段，数据集提供了详细的标注信息，用户可以通过Dice系数、IoU等指标对模型性能进行全面评估。

背景与挑战

背景概述

ERUS-10K数据集由香港中文大学（深圳）的Yuncheng Jiang等研究人员于2024年提出，旨在解决结直肠癌在直肠内超声（ERUS）视频中的自动分割问题。结直肠癌是全球癌症死亡的第二大原因，早期准确诊断对治疗决策和生存率提升至关重要。ERUS作为一种高可靠性的成像技术，能够精确评估肿瘤的浸润深度和边界，但其大规模高质量标注数据集的缺乏阻碍了自动诊断系统的发展。ERUS-10K数据集包含77个ERUS视频和10,000帧高分辨率标注图像，涵盖了结直肠癌的分割、检测和浸润深度分期等多种临床场景，为自动超声诊断系统的开发提供了重要基础。

当前挑战

ERUS-10K数据集面临的挑战主要包括两个方面：首先，结直肠癌在ERUS视频中的分割任务具有较高的复杂性，由于肿瘤形态多样、边界模糊，且超声图像中存在运动模糊和扫描模式差异（如线性扫描与凸阵扫描），导致模型难以准确分割。其次，数据集的构建过程中，研究人员需克服大规模数据标注的困难，尤其是在不同扫描模式下保持标注的一致性和准确性。此外，如何有效利用时间信息进行多帧特征融合，以及如何在低计算复杂度下提取关键上下文信息，也是模型设计中的核心挑战。

常用场景

经典使用场景

ERUS-10K数据集在结直肠癌的超声视频分割领域具有重要应用，特别是在肿瘤边界和浸润深度的精确识别中。该数据集通过提供77个超声视频和10,000帧高分辨率标注图像，为深度学习模型的训练和验证提供了丰富的素材。其经典使用场景包括结直肠癌的自动分割、检测以及浸润深度的分期，这些任务在临床诊断中具有极高的实用价值。

实际应用

在实际应用中，ERUS-10K数据集为结直肠癌的早期诊断和治疗提供了有力支持。通过自动化的超声影像分析，医生可以更快速、准确地识别肿瘤位置、大小及其与周围组织的关系，从而制定个性化的治疗方案。此外，该数据集的应用还减少了因医生经验不足或疲劳导致的漏诊率，提升了诊断的可靠性和效率。

衍生相关工作

基于ERUS-10K数据集，研究者们开发了多项经典工作。例如，自适应稀疏上下文变换器（ASTR）模型通过结合扫描模式增强和稀疏上下文块，显著提升了结直肠癌分割的精度和效率。此外，该数据集还推动了其他相关领域的研究，如超声影像中的多帧特征融合、肿瘤浸润深度的自动分期等，为计算机辅助诊断技术的发展提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

DNS-Challenge

深度噪声抑制挑战数据集，包含干净的语音和噪声剪辑，用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型，其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格，分为 16 个常见对象类（即桌子、椅子、平面等）。每个形状基本事实包含 2-5 个部分（总共 50 个部分类）。

OpenDataLab 收录