MIDOG++|有丝分裂检测数据集|多领域数据集数据集
收藏MIDOG++ 数据集概述
数据集描述
MIDOG++ 是一个综合性的多领域数据集,用于有丝分裂图像检测。该数据集扩展自 MIDOG 2021 和 2022 挑战数据集,包含来自七种不同肿瘤类型的503个组织学标本的区域图像,总计标记了11,937个有丝分裂图像。这些肿瘤类型包括乳腺癌、肺癌、淋巴肉瘤、神经内分泌肿瘤、皮肤肥大细胞瘤、皮肤黑色素瘤和(亚)皮下软组织肉瘤。标本由多个实验室处理,使用了多种扫描设备。
数据集特点
- 多领域性:数据集考虑了不同肿瘤类型、实验室、全切片图像扫描仪和物种带来的广泛领域变化。
- 性能评估:通过使用最先进的方法评估领域变化的程度,发现在单一领域训练中存在显著差异,而在留一领域外设置中,泛化性能显著提高。
数据集组织
- 数据库:位于
databases/
文件夹,包含所有有丝分裂图像注释,格式为 SQLite SlideRunner 和 MS COCO。 - 数据加载器:位于
slide/
文件夹,用于处理全切片图像(WSIs)。 - 图像文件:
images/
文件夹在仓库中为空,但通过运行Setup.ipynb
可下载并填充所有65GB的图像文件。
使用指南
- 环境配置:通过运行
pip -r requirements.txt
安装所有必需的依赖。 - 数据下载:使用
Setup.ipynb
笔记本下载所有来自 figshare 的文件。
引用信息
若在研究中使用此数据集,请引用以下论文:
Aubreville, M., Wilm, F., Stathonikos, N. et al. A comprehensive multi-domain dataset for mitotic figure detection. Sci Data 10, 484 (2023). https://doi.org/10.1038/s41597-023-02327-4

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
FEVER
FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。
fever.ai 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录