five

MIDOG++|有丝分裂检测数据集|多领域数据集数据集

收藏
github2024-05-13 更新2024-05-31 收录
有丝分裂检测
多领域数据集
下载链接:
https://github.com/DeepMicroscopy/MIDOGpp
下载链接
链接失效反馈
资源简介:
MIDOG++是一个综合的多领域数据集,用于有丝分裂图像检测。该数据集包含来自七种不同肿瘤类型的503个组织样本,共有11,937个有丝分裂图像标签。这些样本由多个实验室使用不同的扫描设备处理,数据集首次包含了基于不同肿瘤类型、实验室、全切片图像扫描仪和物种的广泛领域转移。

MIDOG++ is a comprehensive multi-domain dataset designed for mitotic figure detection. This dataset comprises 503 tissue samples from seven different tumor types, with a total of 11,937 labeled mitotic figures. The samples were processed by multiple laboratories using various scanning devices, and for the first time, the dataset includes extensive domain shifts based on different tumor types, laboratories, whole slide image scanners, and species.
创建时间:
2023-03-30
原始信息汇总

MIDOG++ 数据集概述

数据集描述

MIDOG++ 是一个综合性的多领域数据集,用于有丝分裂图像检测。该数据集扩展自 MIDOG 2021 和 2022 挑战数据集,包含来自七种不同肿瘤类型的503个组织学标本的区域图像,总计标记了11,937个有丝分裂图像。这些肿瘤类型包括乳腺癌、肺癌、淋巴肉瘤、神经内分泌肿瘤、皮肤肥大细胞瘤、皮肤黑色素瘤和(亚)皮下软组织肉瘤。标本由多个实验室处理,使用了多种扫描设备。

数据集特点

  • 多领域性:数据集考虑了不同肿瘤类型、实验室、全切片图像扫描仪和物种带来的广泛领域变化。
  • 性能评估:通过使用最先进的方法评估领域变化的程度,发现在单一领域训练中存在显著差异,而在留一领域外设置中,泛化性能显著提高。

数据集组织

  • 数据库:位于 databases/ 文件夹,包含所有有丝分裂图像注释,格式为 SQLite SlideRunner 和 MS COCO。
  • 数据加载器:位于 slide/ 文件夹,用于处理全切片图像(WSIs)。
  • 图像文件images/ 文件夹在仓库中为空,但通过运行 Setup.ipynb 可下载并填充所有65GB的图像文件。

使用指南

  • 环境配置:通过运行 pip -r requirements.txt 安装所有必需的依赖。
  • 数据下载:使用 Setup.ipynb 笔记本下载所有来自 figshare 的文件。

引用信息

若在研究中使用此数据集,请引用以下论文:

Aubreville, M., Wilm, F., Stathonikos, N. et al. A comprehensive multi-domain dataset for mitotic figure detection. Sci Data 10, 484 (2023). https://doi.org/10.1038/s41597-023-02327-4

AI搜集汇总
数据集介绍
main_image_url
构建方式
MIDOG++数据集的构建基于对多种肿瘤类型的深入研究,涵盖了七种不同类型的肿瘤组织,包括乳腺癌、肺癌、淋巴肉瘤、神经内分泌肿瘤、皮肤肥大细胞瘤、皮肤黑色素瘤以及(亚)皮肤软组织肉瘤。该数据集从503个组织样本中提取了感兴趣区域图像,并标注了共计11,937个有丝分裂象。这些样本由多个实验室使用不同的扫描设备处理,确保了数据集在肿瘤类型、实验室和扫描设备之间的广泛域偏移。通过采用最先进的方法评估域偏移的影响,发现单域训练的性能显著下降,而在留一域外的设置中,泛化能力显著提高。
特点
MIDOG++数据集的显著特点在于其广泛的多域偏移特性,涵盖了不同肿瘤类型、实验室、全切片图像扫描仪以及物种之间的差异。这种多样性使得该数据集成为评估和提升有丝分裂象检测算法泛化能力的理想选择。此外,数据集提供了详细的标注信息,包括有丝分裂象的位置和形态特征,为深度学习模型的训练和验证提供了丰富的资源。
使用方法
使用MIDOG++数据集时,用户可以通过运行[Setup.ipynb](Setup.ipynb)笔记本下载所有65GB的图像数据,并将其存储在images文件夹中。数据集的标注信息以SQLite和MS COCO格式提供,用户可以利用这些标注进行模型的训练和评估。此外,该仓库还提供了数据加载器,便于处理全切片图像(WSIs)。通过安装requirements.txt文件中的依赖项,用户可以快速配置环境并开始使用数据集进行研究。
背景与挑战
背景概述
MIDOG++数据集是由Aubreville等人于2023年推出的一个综合性多领域数据集,旨在解决有丝分裂图检测中的跨领域问题。该数据集扩展了MIDOG 2021和2022挑战数据集,包含了来自七个不同肿瘤类型的503个组织样本,总计标注了11,937个有丝分裂图。这些样本来自多个实验室,使用不同的扫描设备进行处理,涵盖了乳腺癌、肺癌、淋巴肉瘤等多种肿瘤类型。MIDOG++数据集的独特之处在于其广泛的多领域差异,包括肿瘤类型、实验室处理和扫描设备的不同,这使得该数据集在评估深度学习模型在跨领域环境下的泛化能力方面具有重要价值。
当前挑战
MIDOG++数据集面临的挑战主要集中在跨领域泛化问题上。由于不同肿瘤类型、实验室处理和扫描设备的差异,深度学习模型在单一领域训练后,在其他领域的表现显著下降。构建过程中,研究人员需要处理不同实验室和扫描设备带来的数据异质性,确保数据集的多样性和代表性。此外,如何有效地利用该数据集提升模型的跨领域适应能力,也是一个亟待解决的研究难题。
常用场景
经典使用场景
MIDOG++数据集在细胞有丝分裂检测领域展现了其经典应用场景。该数据集通过整合来自不同肿瘤类型、实验室和扫描设备的组织样本,提供了丰富的多域数据,特别适用于深度学习模型在面对域偏移时的鲁棒性研究。研究者可以利用该数据集进行跨域训练,以评估模型在不同病理条件下的泛化能力,从而推动自动化病理分析技术的发展。
解决学术问题
MIDOG++数据集解决了在病理图像分析中常见的域偏移问题,尤其是在深度学习模型应用中,不同肿瘤类型、实验室和扫描设备带来的性能下降问题。通过提供多域数据,该数据集帮助研究者探索和改进模型的跨域泛化能力,为病理学中的自动化诊断提供了重要的研究基础,具有显著的学术意义和应用价值。
衍生相关工作
MIDOG++数据集的发布催生了一系列相关研究工作,特别是在多域学习、跨域泛化以及病理图像分析领域。研究者们基于该数据集开发了多种深度学习模型,旨在提高模型在不同病理条件下的性能。此外,该数据集还激发了对病理图像标准化和跨实验室数据共享的研究,推动了病理学领域的技术进步和方法创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

FEVER

FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。

fever.ai 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录