five

VinDr-Mammo|乳腺影像数据集|深度学习数据集

收藏
arXiv2023-03-17 更新2024-06-21 收录
乳腺影像
深度学习
下载链接:
https://doi.org/10.13026/br2v-7517
下载链接
链接失效反馈
资源简介:
VinDr-Mammo是由越南大数据研究所创建的大型全视野数字乳腺摄影数据集,包含5000次检查,共计20000张图像。该数据集通过回顾性从河内的两家主要医院收集,旨在评估乳腺影像报告和数据系统(BI-RADS)及乳腺密度。数据集不仅提供乳腺级别的评估,还包括详细的病变级别标注,适用于开发计算机辅助检测和诊断工具。VinDr-Mammo的应用领域主要集中在提高乳腺癌症筛查的准确性和效率,支持深度学习算法在乳腺放射学中的应用。
提供机构:
大数据研究所
创建时间:
2022-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
VinDr-Mammo数据集的构建始于越南河内两家主要医院的乳腺摄影检查数据收集,包括河内医科大学附属医院和108医院。数据收集过程涉及从2018年至2020年期间通过医院PACS系统随机选取的5000份乳腺摄影检查,共包含20000张影像。随后,这些影像经过匿名化处理,以保护患者隐私。数据标注过程由三位经验丰富的放射科医生通过基于网络的标注工具VinDr Lab完成,该工具专门为医学图像标注项目设计。每位医生独立对乳腺摄影检查进行双读,并在意见不一致时由第三位医生进行仲裁。标注内容包括乳腺水平的BI-RADS评估类别、乳腺密度以及局部发现的类别、位置和BI-RADS评估。最后,标注后的数据被分为训练集和测试集,以供研究和评估使用。
特点
VinDr-Mammo数据集具有以下特点:首先,它是目前最大的公开乳腺摄影数据集之一,包含20000张影像,提供乳腺水平的BI-RADS评估类别以及可疑或可能良性的发现,需要进一步检查。其次,数据集提供了广泛的局部发现级别标注,包括肿块、钙化、不对称、结构扭曲和其他相关特征,为开发更稳健和可解释的乳腺影像AI系统提供了丰富的数据资源。此外,数据集还包含了详细的乳腺密度信息,有助于研究乳腺密度与疾病风险之间的关系。
使用方法
VinDr-Mammo数据集可用于开发和研究乳腺摄影的计算机辅助检测和诊断(CADe/x)工具。用户可以通过接受PhysioNet Credentialed Health Data License 1.5.0协议来下载和使用该数据集。数据集的影像和放射科医生的标注信息均以CSV文件形式存储,方便用户进行数据处理和分析。此外,数据集还提供了BI-RADS评估的转换方案,以适应不同的研究需求。需要注意的是,由于缺乏病理学确证的地面真实数据,该数据集主要用于训练场景,而非直接用于诊断目的。
背景与挑战
背景概述
乳腺癌是全球范围内最常见的癌症之一,其死亡率占所有癌症死亡人数的最大比例。乳腺X射线成像,或称为乳腺摄影,是目前最广泛使用的检测癌症和其他乳腺疾病的方法。然而,乳腺摄影的解读是一个具有挑战性的任务。为了提高乳腺摄影解读的准确性和可靠性,基于深度学习的计算机辅助检测和诊断(CADe/x)工具已经被开发出来,以支持医生的工作。VinDr-Mammo数据集是一个大规模的越南数字乳腺摄影数据集,包含乳房级别评估和广泛的病变级别注释,旨在增强公开可用的乳腺摄影数据的多样性。该数据集由5,000个乳腺摄影检查组成,每个检查都有四个标准视图,并且经过双重阅读,任何分歧都通过仲裁解决。该数据集的目的是评估乳腺成像报告和数据系统(BI-RADS)和个体乳房水平的乳腺密度。此外,该数据集还提供了非良性发现的类别、位置和BI-RADS评估。
当前挑战
VinDr-Mammo数据集在乳腺摄影领域的研究中面临着一些挑战。首先,尽管该数据集提供了广泛的病变级别注释,但缺乏病理学确认的基线数据和其他重要的临床信息,如分子和病理学数据。这使得该数据集在很大程度上依赖于放射科医生的专家知识。其次,由于数据集的不完整性,它不适合直接用于评估诊断目的的CAD,而只能用于训练环境。最后,引入的数据集不符合DICOM标准,无法被DICOM处理工具正确处理。
常用场景
经典使用场景
VinDr-Mammo 数据集,作为越南地区首个人工智能辅助诊断的全场数字乳腺影像大数据集,其经典使用场景在于辅助放射科医生进行乳腺癌的筛查与诊断。该数据集提供了5,000个乳腺影像检查,每个检查包含四个标准视图,并经过双盲读片,确保了数据的准确性和可靠性。VinDr-Mammo 数据集在个体乳腺层面上提供了BI-RADS评估和广泛的病变级别注释,这对于开发更强大、更可解释的乳腺影像支持系统具有重要意义。
衍生相关工作
VinDr-Mammo 数据集的引入,衍生了一系列相关的研究工作,例如:1)基于VinDr-Mammo 数据集的乳腺影像计算机辅助诊断工具(CADe/x)的开发;2)基于VinDr-Mammo 数据集的乳腺影像解读的人工智能算法研究;3)基于VinDr-Mammo 数据集的乳腺癌的早期诊断和预防研究。这些研究工作,将进一步推动乳腺影像领域的科技进步,为乳腺癌的防治提供有力的支持。
数据集最近研究
最新研究方向
VinDr-Mammo数据集的引入为乳腺影像学领域带来了新的研究方向,特别是在计算机辅助诊断(CAD)方面。该数据集通过提供5000个乳腺X光影像检查,每个检查包括四个标准视图,以及乳腺水平的评估和广泛的病变水平注释,极大地丰富了公开可用的乳腺影像数据。VinDr-Mammo旨在评估乳腺成像报告和数据系统(BI-RADS)以及乳腺密度,同时提供非良性发现的类别、位置和BI-RADS评估。这些特点使得VinDr-Mammo成为评估和比较基于乳腺X光影像的CAD工具的理想基准数据集。VinDr-Mammo的发布推动了CAD在乳腺影像学中的发展和应用,为提高乳腺癌筛查的准确性和效率提供了重要的数据资源。
相关研究论文
  • 1
    VinDr-Mammo: A large-scale benchmark dataset for computer-aided diagnosis in full-field digital mammography大数据研究所 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

钻孔成像测井解译数据(2021-2022年)

利用测井设备实时获取的雄安新区D19,D21,D22,冀中坳陷地区JZ01,JZ04钻孔的测井数据,并由Techlog软件 WBI井眼成像解释模块解译的裂缝原始数据

国家地球系统科学数据中心 收录

HUSTbearing dataset

该数据集包含轴承在九种不同健康状态下的振动信号,涵盖四种不同的操作条件。这些数据集公开可用,任何人都可以使用它们来验证滚动轴承的诊断算法。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

Chinese-Poetry-Corpus

本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

github 收录