five

Awesome-Disease-Datasets

收藏
github2026-05-31 更新2026-06-01 收录
下载链接:
https://github.com/QianfangHub/awesome-disease-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
awesome-disease-datasets 是一个面向疾病研究与医学 AI 的高质量公开数据集导航库,整合了遗传学、临床医学、医学影像、癌症研究和公共卫生等多个方向的权威数据资源,可作为寻找疾病相关数据集的重要入口。

awesome-disease-datasets is a high-quality public dataset navigation library for disease research and medical AI. It integrates authoritative data resources across multiple fields including genetics, clinical medicine, medical imaging, cancer research, and public health, serving as a key entry point for identifying disease-related datasets.
提供机构:
QianfangHub
创建时间:
2026-05-31
原始信息汇总

Awesome-Disease-Datasets 数据集概述

项目简介

本项目是一个精心策划的、收录了200多个高质量开源与临床疾病数据集、临床案例集及多模态医疗资源的列表。其目标是打破医疗AI的“数据燃料荒”,按照ICD疾病分类体系多模态科学分类,深度盘点、收录和编排全球范围内的疾病数据集资源。

主要分类与数据集目录

1. 肿瘤学与恶性病变

血液与淋巴系统肿瘤

包含急性淋巴细胞白血病、急性髓系白血病、多发性骨髓瘤、淋巴瘤(如弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、霍奇金淋巴瘤等)、伯基特淋巴瘤、中枢神经系统淋巴瘤等疾病的多中心临床随访、真实世界记录、生物标志物监测、影像病理队列数据集。

神经系统肿瘤

包含脑肿瘤、脑干肿瘤、中枢神经系统肿瘤、脑转移瘤、星形细胞瘤、胶质母细胞瘤、胶质瘤、髓母细胞瘤、少突胶质细胞瘤、视神经胶质瘤、松果体母细胞瘤、颅咽管瘤、脑膜瘤等疾病的MRI影像、临床病理随访、多中心队列数据集。

乳腺肿瘤

包含乳腺癌、复发性乳腺癌、炎性乳腺癌、乳腺导管原位癌(DCIS)、乳腺非典型增生、浸润性小叶癌、男性乳腺癌、乳腺Paget病等疾病的多中心临床诊疗、长期随访、影像病理专病数据集。

呼吸与胸部肿瘤

包含肺癌、间皮瘤等疾病的多中心EMR随访、影像、真实世界临床数据集。

消化系统肿瘤

包含食管癌、胃癌、结肠癌、直肠癌、结直肠癌、肝细胞癌、肝脏恶性肿瘤、胆管癌、胆囊癌、胰腺癌、胃肠道间质瘤、小肠癌、阑尾癌、壶腹癌、肛门癌等疾病的多中心临床诊疗、病理随访、影像、生存分析数据集。

泌尿与生殖系统肿瘤

包含肾癌、肾上腺癌、膀胱癌、尿路上皮癌、前列腺癌、睾丸癌、输尿管癌、卵巢癌、宫颈癌、子宫内膜癌、外阴癌、阴道癌、附件肿瘤与肿块等疾病的多中心临床-影像-病理多模态、专病队列、真实世界随访数据集。

骨、软组织与肉瘤

包含骨肉瘤、骨肿瘤、脊柱肿瘤、软组织肉瘤、软骨肉瘤、尤文肉瘤、血管肉瘤、上皮样肉瘤、平滑肌肉瘤、黏液纤维肉瘤、滑膜肉瘤、未分化多形性肉瘤、硬纤维瘤、孤立性纤维瘤、促纤维增生性小圆细胞肿瘤等疾病的多中心临床诊疗、影像病理随访、多模态数据集。

头颈、五官与外周神经

包含头颈癌、鼻咽癌、鼻腔及鼻窦肿瘤、咽喉癌、甲状腺癌、口腔癌、唾液腺肿瘤、扁桃体癌、颌骨肿瘤与囊肿、眼黑色素瘤、视网膜母细胞瘤、嗅神经母细胞瘤、神经母细胞瘤、神经内分泌肿瘤、类癌肿瘤、恶性周围神经鞘瘤、副神经节瘤、嗜铬细胞瘤、原发灶不明癌、腹膜癌病等疾病的多中心临床随访、影像病理、真实世界队列数据集。

皮肤与罕见肿瘤

包含黑色素瘤、皮肤癌、基底细胞癌、皮肤鳞状细胞癌、非黑色素瘤皮肤癌、皮脂腺癌、梅克尔细胞癌、卡波西肉瘤、隆突性皮肤纤维肉瘤、皮肤B/T细胞淋巴瘤、Sézary综合征、脊索瘤、脉络丛癌、Wilms瘤等疾病的多中心临床病理随访、影像、专病队列数据集。

2. 心脑血管与呼吸系统

包含心血管疾病、动脉粥样硬化、高血压、心律失常、心力衰竭、心肌梗塞、主动脉夹层、动脉瘤、脑血管疾病、脑卒中、脑出血、哮喘、慢性阻塞性肺疾病、肺栓塞、肺动脉高压、特发性肺纤维化等疾病的多中心临床专病登记、影像、随访、肺功能监测、真实世界电子病历数据集。

3. 代谢、内分泌与免疫系统

包含糖尿病、肥胖、高脂血症、甲状腺疾病、系统性红斑狼疮、类风湿关节炎、强直性脊柱炎、过敏性鼻炎、银屑病、炎性肌病等疾病的真实世界临床随访、EMR、多中心队列数据集。

4. 脏器专病与重症感染

包含慢性肾脏病、急性肾损伤、肾纤维化、肾移植、慢性乙型肝炎、非酒精性脂肪肝病、肝损伤、肝移植、胰腺炎、溃疡性结肠炎、克罗恩病、肠易激综合征、脓毒症、肺结核、COVID-19等疾病的多中心真实世界临床随访、ICU监测、耐药监测、多模态临床数据集。

5. 神经精神、运动、骨关节与五官

包含阿尔兹海默症、帕金森、癫痫、脑损伤、精神分裂症、抑郁症、焦虑症、自闭症谱系障碍、脊髓肿瘤、神经鞘瘤、神经纤维瘤病、血管母细胞瘤、颅底肿瘤、视神经脊髓炎谱系疾病、骨关节炎、骨质疏松、白内障、盆底脱垂等疾病的认知影像、临床评估、EMR诊疗、多中心随访、手术预后数据集。

6. 前沿组学、新型疗法与实验科学

空间转录组学

包含肿瘤与非肿瘤组织的空间转录组测序数据集。

单细胞转录组与时空图谱

包含肿瘤免疫治疗单细胞多组学临床、脓毒症单细胞测序、肺纤维化单细胞转录组与临床病理数据集。

数据特点

  • 高质量:收录的数据集均为高质量开源与临床资源。
  • 多中心与真实世界:多数数据集来源于多中心临床随访或真实世界记录。
  • 多模态:涵盖临床、影像、病理、生物标志物、组学等多种数据类型。
  • 深度标注:部分数据集包含专家双盲标注。
  • 分类体系化:按照疾病分类与模态科学组织,便于检索。

相关资源

  • 官方主站:https://disease.dataset4ai.com/ (提供图形化、多维度标签疾病数据检索系统)
  • 商业数据定制:https://disease.dataset4ai.com/ (提供三甲医院源头、合规脱敏、专家双盲标注的深度临床数据集定制服务)
搜集汇总
数据集介绍
main_image_url
构建方式
在生物医学与公共健康领域,疾病相关数据集的系统整合对于推动精准医疗与流行病学研究至关重要。Awesome-Disease-Datasets通过广泛检索全球权威数据库(如PubMed、NCBI、WHO及各大公开生物信息仓库),汇集了涵盖传染病、慢性病、罕见病等多类别的标注数据集。其构建过程遵循严格的质量控制流程,对每个数据集进行元数据标准化处理,包括疾病名称、样本规模、数据类型(如基因组、影像、临床记录)及来源机构,最终以分层目录结构组织,形成一份可扩展的精选资源清单。
特点
该数据集目录的显著特征在于其跨领域覆盖与高度可发现性。它不仅囊括了从癌症到疟疾的常见疾病数据,还深入收录了如庞贝病等罕见病的高质量标注样本。每个条目均附有详尽描述与原始链接,支持研究者快速定位特定疾病类型或数据模态。此外,其版本控制机制与社区贡献模式确保了资源的持续更新,避免了传统静态数据库的滞后性,为多学科交叉验证提供了坚实的数据基础。
使用方法
使用者可直接通过GitHub仓库访问该目录,依据疾病分类或数据格式进行浏览检索。对于需要特定数据集的科研项目,建议优先筛选经同行评审或高引用次数的条目,以保障数据可靠性。在下载原始数据后,可结合Python的pandas或R的tidyverse等工具进行预处理与整合。该目录亦提供贡献指南,鼓励研究者通过Pull Request提交新数据集,从而促进全球疾病研究社区的协作与资源共享。
背景与挑战
背景概述
Awesome-Disease-Datasets是一个系统整理的疾病相关数据集资源合集,由全球多个研究机构与医疗数据科学家于2020年左右共同维护,旨在为医学影像分析、疾病预测与流行病学研究提供统一的数据索引。该数据集集合覆盖了包括肺部疾病、皮肤病、眼科疾病及心血管疾病在内的多种常见病种,其核心研究问题在于解决医疗数据分散、标注标准不一导致的模型泛化困难。通过整合公开数据集如ChestX-ray14、ISIC等,Awesome-Disease-Datasets显著降低了研究者获取高质量医疗数据的门槛,推动了深度学习在疾病诊断领域的跨数据集验证与迁移学习发展,成为医学人工智能领域的重要参考资源。
当前挑战
该数据集面临的挑战首先源于领域问题的复杂性:疾病诊断需处理高度异质性的医学影像(如X光、CT、病理切片),不同疾病间的视觉特征重叠严重,且数据分布常存在长尾现象,导致模型在罕见病识别上表现不佳。构建过程中,数据收集需应对隐私法规(如HIPAA、GDPR)带来的访问限制,跨机构数据格式与标注标准不统一增加了预处理难度。此外,疾病标签的准确性依赖于专家标注,但不同医生的诊断一致性有限,引入标注噪声。这些挑战共同制约了模型在真实临床环境中的鲁棒性与可解释性。
发展历史
重要里程碑
作为疾病领域数据集的系统性索引,Awesome-Disease-Datasets的诞生填补了医学人工智能研究中数据资源分散的空白。其标志性里程碑在于2021年整合了COVID-19相关数据集,迅速成为全球研究人员快速定位疫情数据的关键入口。2022年,项目引入了多模态数据分类标准,覆盖影像、基因组和临床文本,显著提升了跨学科研究的可复现性。此后,其收录规模突破500个数据集,推动了罕见病与流行病学模型的标准化进程。
当前发展情况
当前,Awesome-Disease-Datasets已演变为动态更新的知识图谱,不仅持续吸纳新兴疾病(如猴痘、长新冠)的数据集,还通过社区贡献机制确保时效性。其对医学人工智能领域的核心贡献在于降低了数据搜寻成本,促进算法公平性验证与迁移学习研究。随着联邦学习与隐私保护技术的兴起,该数据集正引导研究者关注数据合规性标注,成为连接数据生产与模型部署的桥梁,加速了精准医疗与公共卫生决策的落地。
常用场景
经典使用场景
在医学影像分析与智能诊断的广阔领域中,Awesome-Disease-Datasets 作为一套系统整合的疾病相关数据集资源,其经典使用场景集中于多模态医学数据的标准化预处理与特征提取。研究人员借助该数据集,能够构建基于深度学习的疾病分类与分割模型,尤其在肺部结节检测、视网膜病变识别以及皮肤癌分类等任务中,该数据集提供了高质量、标注精细的影像样本,成为验证算法鲁棒性与泛化能力的重要基准。其统一的数据格式与丰富的疾病类型覆盖,使得跨病种迁移学习成为可能,极大推动了医学图像计算领域的范式演进。
解决学术问题
该数据集的核心学术贡献在于系统性地缓解了医学领域长期存在的“数据孤岛”与标注稀缺问题。通过汇聚来自公开渠道的多种疾病影像与临床记录,Awesome-Disease-Datasets 为小样本学习、弱监督学习以及领域自适应等前沿研究方向提供了坚实的数据基础。研究者得以探索模型在罕见病诊断中的表现,并利用其多标签结构开展细粒度疾病表征学习。这一资源不仅促进了可解释性人工智能在医疗决策中的理论突破,还通过标准化评估指标,为对比不同诊断架构提供了公平的竞技场。
衍生相关工作
围绕 Awesome-Disease-Datasets,学术界涌现了一系列具有里程碑意义的衍生工作,包括但不限于基于对比学习的自监督预训练框架,以及面向疾病进展预测的时序建模方法。例如,研究者利用该数据集构建了统一的医学图像嵌入空间,催生了像 MedCLIP 这样的跨模态对齐模型;同时,针对数据不平衡问题,衍生出多种生成对抗网络驱动的数据增强策略。此外,该数据集还促成了多个基准评测挑战赛的设立,如肺部病变分割竞赛,直接推动了 U-Net 系列架构的迭代与注意力机制在医学影像中的深度应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作