Disease & Medical Conditions — Wikipedia NLP Dataset

github2026-04-20 更新2026-05-02 收录

下载链接：

https://github.com/Muhaddisa12/Disease-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个干净、结构化的数据集，包含从Wikipedia自动提取的80种疾病和医疗状况。涵盖症状、治疗方法、原因和完整文章文本，适用于机器学习、NLP研究和医疗AI项目。

A clean, structured dataset containing 80 diseases and medical conditions automatically extracted from Wikipedia. It covers symptoms, treatments, causes, and full article texts, and is suitable for machine learning, NLP research, and medical AI projects.

创建时间：

2026-04-20

原始信息汇总

数据集概述：Disease & Medical Conditions — Wikipedia NLP Dataset

基本信息

数据集名称：Disease & Medical Conditions — Wikipedia NLP Dataset
数据集来源：Wikipedia
许可证：CC BY-SA 4.0
数据规模：80种疾病与医学状况
语言：英语

数据集内容

从Wikipedia自动提取的结构化疾病数据，涵盖症状、治疗、病因及全文文本。

输出文件结构

运行脚本后生成 disease_dataset/ 文件夹，包含以下内容：

文件	描述
`diseases_main.csv`	每种疾病一行（主信息）
`symptoms.csv`	每种疾病每个症状一行
`treatments.csv`	每种疾病每个治疗方式一行
`causes.csv`	每种疾病每个病因一行
`raw_text/`	80个纯文本文件，每病一个

主要表格字段说明

diseases_main.csv 主表字段

字段	类型	描述
`id`	字符串	唯一ID，如 `D001`
`name`	字符串	疾病名称
`category`	字符串	高层分类
`summary`	字符串	Wikipedia前约120词
`word_count`	整数	Wikipedia文章总词数
`url`	字符串	Wikipedia源URL

疾病类别：Infectious Disease · Cardiovascular · Neurological · Mental Health · Cancer · Metabolic/Endocrine · Respiratory · Gastrointestinal · Autoimmune · Genetic/Rare

symptoms.csv、treatments.csv、causes.csv 子表字段

disease_id：关联主表ID
disease_name：疾病名称
symptom / treatment / cause：具体内容

raw_text/ 文本文件

每个文件包含：疾病名称、类别、Wikipedia URL、完整Wikipedia文章文本
平均大小：5,000–15,000词

适用范围

该数据集可用于以下领域：

医疗诊断AI — 基于症状列表预测最可能的疾病
自然语言处理 — 命名实体识别、关系抽取、文本分类
语言模型微调 — 对BERT、BioBERT、GPT等模型进行医学词汇微调
药物发现与治疗推荐 — 基于相似疾病推荐治疗方案
知识图谱构建 — 建立疾病、症状、病因、治疗之间的关系图
数据分析与研究 — 分析疾病类别特征与文档长度关联
医疗聊天机器人/虚拟助手 — 回答疾病相关问题
教育AI工具 — 驱动学习应用、测验生成器

限制说明

Wikipedia偏差：知名疾病文章质量更高、数据更丰富
章节不一致：并非每篇Wikipedia文章使用相同章节标题，部分治疗/症状字段可能稀疏
非临床数据：此为百科全书文本，不适用于直接临床决策
仅英文：所有数据来自英文Wikipedia

获取与使用

运行方式：安装 requests 库后执行 python scrape_diseases.py
无需API密钥或注册
样本代码：提供Python代码示例，可加载并分析数据集（加载主表、症状表、治疗表，统计最症状最多的疾病、各类别疾病数量等）

搜集汇总

数据集介绍

构建方式

该数据集基于维基百科中80种疾病与医学状况的丰富条目，通过自动化脚本对文章进行系统化解析与结构化抽取。脚本通过识别维基百科文章内固定的章节标题，如症状、治疗与病因等，分别提取对应信息并存入独立的CSV文件中，同时保留全文原始文本作为TXT格式存档，确保数据来源的完整性与可追溯性。

使用方法

使用者仅需安装Python的requests库并运行提供的脚本，即可自动生成包含主表、子表及原文的完整数据集。数据加载可通过标准CSV解析工具完成，适合用于构建医学诊断分类器、训练实体识别模型、微调生物医学语言模型、构建知识图谱或开发医疗问答系统等多种下游任务，无需API密钥或额外授权。

背景与挑战

背景概述

在人工智能与医疗健康深度融合的时代背景下，高质量、结构化的医学文本数据集成为推动临床自然语言处理、医学知识图谱构建及智能诊断系统发展的关键基石。该数据集由研究团队于维基百科平台自动采集并精心整理，涵盖80种常见疾病与医学状况的详细信息，包括症状、治疗方案、病因及全文文本。数据集按传染性疾病、心血管疾病、神经系统疾病、心理健康等十大类别进行划分，旨在为机器学习与NLP研究提供纯净、多层次的语料资源。其创建不仅降低了医学数据获取的门槛，更为BioBERT微调、医学实体识别、症状分类器训练等前沿研究提供了标准化的数据支撑。

当前挑战

该数据集面临的首要挑战在于维基百科文章质量与篇幅的不均衡性，知名疾病条目信息丰富而罕见病症内容稀疏，导致数据覆盖的偏差。数据构建过程中，不同文章章节标题的不一致性使得症状、治疗等结构化字段存在空缺，影响了跨疾病比较的可靠性。此外，数据集仅收录英文语料，限制了其在多语言医疗场景下的泛化能力。更关键的是，作为百科类文本而非临床记录，数据无法直接应用于实际诊疗决策，需警惕模型过度依赖表层信息而忽略病理因果逻辑的风险。

常用场景

经典使用场景

在医学自然语言处理与人工智能研究领域中，该数据集凭借其从维基百科自动提取的80种疾病的结构化信息，成为构建医疗诊断系统的理想资源。通过整合疾病的症状、病因、治疗方式及全文文本，研究者能够训练分类器以症状列表为输入，精准预测最可能的疾病类型，这构成了类似IBM Watson Health等智能症状检查应用的核心技术基础。数据集的多维结构化特性，使得从简单文本分类到复杂关系抽取的各类下游任务均能在此数据上高效开展。

解决学术问题

该数据集最为突出的学术贡献在于它为多项经典研究问题提供了可复现的基准测试平台。例如，研究者可借此探究疾病类别与维基百科词条长度的关联性，验证传染病是否比遗传病拥有更丰富的症状记录，或是分析特定治疗方案在跨疾病类型中的分布规律。此外，通过对比精神与躯体疾病的语言学差异，以及评估仅基于症状文本训练的模型对疾病类别的分类能力，该数据集有力地推动了医学文本分析与知识发现的方法论创新。

实际应用

在实际应用层面，该数据集的价值体现在多个医疗人工智能场景中。基于其结构化的症状与治疗数据，可开发智能医疗问答系统，为患者提供关于疾病症状与治疗方案的即时解答。同时，医学科普与教育工具也能受益于此，通过自动生成测验题目或辅助备考材料来提升教学效率。此外，数据集还可用于构建药物-疾病关系图谱，辅助罕见病的治疗推荐，乃至驱动电子病历中的命名实体识别与关系抽取任务。

数据集最近研究