five

ERUS-10K|医学影像分析数据集|计算机辅助诊断数据集

收藏
arXiv2024-08-19 更新2024-08-21 收录
医学影像分析
计算机辅助诊断
下载链接:
http://arxiv.org/abs/2408.10067v1
下载链接
链接失效反馈
资源简介:
ERUS-10K数据集由香港中文大学(深圳)等机构创建,包含77个直肠内超声视频和10,000个高质量注释帧,专门用于结直肠癌的分割、检测和浸润深度分期。数据集的创建旨在解决缺乏大规模高质量注释的直肠内超声数据集的问题,支持自动超声诊断技术的发展。该数据集的应用领域主要集中在医学影像分析,特别是结直肠癌的计算机辅助诊断。
提供机构:
香港中文大学(深圳)、深圳未来网络智能研究所、高性能计算研究所、深圳大数据研究院、川北医学院附属医院
创建时间:
2024-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
ERUS-10K数据集的构建基于77个内窥镜超声视频,共包含10,000帧高分辨率标注图像。这些视频涵盖了结直肠癌的分割、检测和浸润深度分期等多种临床场景。数据集的标注由经验丰富的超声医师手动完成,确保了标注的高质量和临床相关性。此外,数据集还通过自适应扫描模式增强(ASMA)技术,将不同扫描模式(如线性扫描和凸面扫描)的图像进行转换,以增强模型的泛化能力。
特点
ERUS-10K数据集的特点在于其多样性和高质量标注。数据集不仅包含结直肠癌的分割和检测任务,还提供了肿瘤浸润深度的分期信息,覆盖了从T1到T4的不同阶段。此外,数据集中的图像来自不同的扫描模式,能够反映实际临床操作中的多样性。通过自适应扫描模式增强技术,数据集进一步平衡了不同扫描模式下的图像数量,减少了模型过拟合的风险。
使用方法
ERUS-10K数据集的使用方法主要包括数据预处理、模型训练和评估。在预处理阶段,用户可以通过自适应扫描模式增强技术将不同扫描模式的图像进行转换,以增强模型的泛化能力。在模型训练阶段,数据集可以用于训练结直肠癌分割模型,如自适应稀疏上下文变换器(ASTR),该模型通过稀疏上下文块(SCB)和稀疏上下文变换器(SCT)来提取帧间局部和全局特征。在评估阶段,数据集提供了详细的标注信息,用户可以通过Dice系数、IoU等指标对模型性能进行全面评估。
背景与挑战
背景概述
ERUS-10K数据集由香港中文大学(深圳)的Yuncheng Jiang等研究人员于2024年提出,旨在解决结直肠癌在直肠内超声(ERUS)视频中的自动分割问题。结直肠癌是全球癌症死亡的第二大原因,早期准确诊断对治疗决策和生存率提升至关重要。ERUS作为一种高可靠性的成像技术,能够精确评估肿瘤的浸润深度和边界,但其大规模高质量标注数据集的缺乏阻碍了自动诊断系统的发展。ERUS-10K数据集包含77个ERUS视频和10,000帧高分辨率标注图像,涵盖了结直肠癌的分割、检测和浸润深度分期等多种临床场景,为自动超声诊断系统的开发提供了重要基础。
当前挑战
ERUS-10K数据集面临的挑战主要包括两个方面:首先,结直肠癌在ERUS视频中的分割任务具有较高的复杂性,由于肿瘤形态多样、边界模糊,且超声图像中存在运动模糊和扫描模式差异(如线性扫描与凸阵扫描),导致模型难以准确分割。其次,数据集的构建过程中,研究人员需克服大规模数据标注的困难,尤其是在不同扫描模式下保持标注的一致性和准确性。此外,如何有效利用时间信息进行多帧特征融合,以及如何在低计算复杂度下提取关键上下文信息,也是模型设计中的核心挑战。
常用场景
经典使用场景
ERUS-10K数据集在结直肠癌的超声视频分割领域具有重要应用,特别是在肿瘤边界和浸润深度的精确识别中。该数据集通过提供77个超声视频和10,000帧高分辨率标注图像,为深度学习模型的训练和验证提供了丰富的素材。其经典使用场景包括结直肠癌的自动分割、检测以及浸润深度的分期,这些任务在临床诊断中具有极高的实用价值。
实际应用
在实际应用中,ERUS-10K数据集为结直肠癌的早期诊断和治疗提供了有力支持。通过自动化的超声影像分析,医生可以更快速、准确地识别肿瘤位置、大小及其与周围组织的关系,从而制定个性化的治疗方案。此外,该数据集的应用还减少了因医生经验不足或疲劳导致的漏诊率,提升了诊断的可靠性和效率。
衍生相关工作
基于ERUS-10K数据集,研究者们开发了多项经典工作。例如,自适应稀疏上下文变换器(ASTR)模型通过结合扫描模式增强和稀疏上下文块,显著提升了结直肠癌分割的精度和效率。此外,该数据集还推动了其他相关领域的研究,如超声影像中的多帧特征融合、肿瘤浸润深度的自动分期等,为计算机辅助诊断技术的发展提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

BBT-FinCorpus

BBT-FinCorpus是由上海数据科学重点实验室创建的大型中文金融领域数据集,包含约300GB的原始文本,来源于金融新闻、公司公告、研究报告和社交媒体等四个不同渠道。该数据集的创建旨在丰富金融领域的文本多样性,支持金融预训练语言模型的开发。通过精细的收集和处理,BBT-FinCorpus覆盖了金融NLP任务中的主要文本类型,为金融领域的语言理解和生成任务提供了丰富的数据资源。该数据集的应用领域广泛,特别适用于金融信息提取、情感分析等任务,旨在提升中文金融NLP的整体水平。

arXiv 收录

MIMII数据集

MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。

arXiv 收录