HNJ1998/symptom_to_diagnosis
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/HNJ1998/symptom_to_diagnosis
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-classification
task_ids:
- multi-class-classification
language:
- en
tags:
- medical
pretty_name: Gretel/symptoms_to_diagnosis
size_categories:
- 10K<n<100K
---
# Dataset Summary
This dataset contains natural language descriptions of symptoms labeled with 22 corresponding diagnoses. `Gretel/symptom_to_diagnosis` provides 1065 symptom descriptions in the English language labeled with 22 diagnoses, focusing on fine-grained single-domain diagnosis.
## Data Fields
Each row contains the following fields:
* `input_text` : A string field containing symptoms
* `output_text` : A string field containing a diagnosis
Example:
```
{
"output_text": "drug reaction",
"input_text": "I've been having headaches and migraines, and I can't sleep. My whole body shakes and twitches. Sometimes I feel lightheaded."
}
```
## Diagnoses
This table contains the count of each diagnosis in the train and test splits.
| | Diagnosis | train.jsonl | test.jsonl |
|---:|:--------------------------------|--------------:|-------------:|
| 0 | drug reaction | 40 | 8 |
| 1 | allergy | 40 | 10 |
| 2 | chicken pox | 40 | 10 |
| 3 | diabetes | 40 | 10 |
| 4 | psoriasis | 40 | 10 |
| 5 | hypertension | 40 | 10 |
| 6 | cervical spondylosis | 40 | 10 |
| 7 | bronchial asthma | 40 | 10 |
| 8 | varicose veins | 40 | 10 |
| 9 | malaria | 40 | 10 |
| 10 | dengue | 40 | 10 |
| 11 | arthritis | 40 | 10 |
| 12 | impetigo | 40 | 10 |
| 13 | fungal infection | 39 | 9 |
| 14 | common cold | 39 | 10 |
| 15 | gastroesophageal reflux disease | 39 | 10 |
| 16 | urinary tract infection | 39 | 9 |
| 17 | typhoid | 38 | 9 |
| 18 | pneumonia | 37 | 10 |
| 19 | peptic ulcer disease | 37 | 10 |
| 20 | jaundice | 33 | 7 |
| 21 | migraine | 32 | 10 |
## Data Splits
The data is split to 80% train (853 examples, 167kb) and 20% test (212 examples, 42kb).
## Dataset Creation
Data was filtered to remove unwanted categories and updated using an LLM to create language more consistent with how a patient would describe symptoms in natural language to a doctor.
## Source Data
This dataset was adapted based on the [Symptom2Disease](https://www.kaggle.com/datasets/niyarrbarman/symptom2disease) dataset from Kaggle.
## Personal and Sensitive Information
The symptoms in this dataset were modified from their original format using an LLM and do not contain personal data.
## Limitations
This dataset is licensed Apache 2.0 and free for use.
提供机构:
HNJ1998
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,构建高质量的数据集对于提升诊断辅助系统的性能至关重要。该数据集源自Kaggle平台的Symptom2Disease原始数据,通过筛选去除无关类别,并利用大型语言模型对症状描述进行重构,使其更贴近患者向医生陈述病情的自然语言表达方式,从而增强了数据的真实性与实用性。数据划分为训练集与测试集,分别包含853条和212条样本,覆盖22种常见诊断类别,确保了模型训练与评估的均衡性。
特点
该数据集聚焦于细粒度单领域诊断任务,其核心特征在于症状描述的天然语言化与诊断标签的多样性。每条数据均由患者自述的症状文本与对应的诊断结果构成,涵盖了从药物反应到偏头痛等22种常见疾病,各类别在训练与测试集中分布相对均衡,为多类文本分类模型提供了丰富的学习素材。数据规模适中,总计1065条样本,既便于快速实验迭代,又具备足够的代表性以支持可靠的性能验证。
使用方法
该数据集适用于英文环境下的多类文本分类任务,旨在构建从症状描述到诊断预测的自动化模型。使用者可加载训练集进行模型训练,利用测试集评估分类准确性,重点关注模型在自然语言症状输入下的诊断推理能力。数据以JSONL格式提供,字段清晰简洁,可直接整合入主流机器学习框架。鉴于其医学背景,建议在应用中结合领域知识进行结果验证,以保障诊断建议的临床合理性。
背景与挑战
背景概述
在医疗人工智能领域,将患者自述症状自动映射至准确诊断是一项核心研究课题。Gretel/symptom_to_diagnosis数据集应运而生,专注于细粒度单领域诊断任务。该数据集由Gretel机构构建,基于Kaggle平台的Symptom2Disease原始数据,并利用大语言模型对症状描述进行自然语言重构,使其更贴近患者向医生陈述的真实场景。数据集包含1065条英文症状描述,标注为22种对应诊断,旨在为症状到诊断的文本分类研究提供高质量、患者风格的语言资源,推动临床决策支持系统的智能化发展。
当前挑战
该数据集致力于解决医疗文本分类中症状到诊断映射的挑战,其核心难题在于症状描述的多样性与诊断标签的离散性之间存在复杂非线性关系,且同种疾病可能呈现异质性症状,增加了模型泛化难度。在构建过程中,挑战主要集中于数据清洗与语言规范化,需要从原始数据中过滤无关类别,并运用大语言模型将症状描述转化为符合患者日常口语习惯的自然语言,同时确保医学信息的准确性与一致性,避免引入偏差或失真。
常用场景
经典使用场景
在医疗自然语言处理领域,symptom_to_diagnosis数据集为症状到诊断的文本分类任务提供了关键资源。该数据集通过1065条自然语言症状描述与22种精细诊断的对应关系,典型应用于训练和评估多类文本分类模型,尤其支持从患者自述症状中自动推断潜在疾病,为临床决策辅助系统奠定数据基础。
解决学术问题
该数据集有效解决了医疗文本分析中症状描述与诊断映射的学术挑战,通过提供结构化的症状-诊断对,促进了基于深度学习的自动诊断模型研究。其意义在于降低了医疗数据标注成本,推动了细粒度单领域诊断任务的标准化,为探索症状语言变异性与诊断准确性之间的关系提供了实证基础,对提升医疗人工智能的可解释性与可靠性具有重要影响。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于Transformer架构的诊断分类模型优化、症状文本的数据增强方法探索,以及跨语言诊断迁移学习实验。这些工作进一步扩展了数据集在医疗NLP中的应用边界,例如结合大语言模型进行症状描述的生成与解析,推动了自动诊断系统向更高效、更精准的方向发展。
以上内容由遇见数据集搜集并总结生成



