gretelai/symptom_to_diagnosis

Name: gretelai/symptom_to_diagnosis
Creator: gretelai
Published: 2023-05-24 17:58:04
License: 暂无描述

Hugging Face2023-05-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gretelai/symptom_to_diagnosis

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1065条英文症状描述，每条描述对应22种诊断之一。数据集名为Gretel/symptoms_to_diagnosis，专注于细粒度的单领域诊断。每条数据包含两个字段：`input_text`（症状描述）和`output_text`（诊断结果）。数据集分为训练集和测试集，比例为80%和20%。数据经过过滤和更新，使用LLM生成更符合患者自然语言描述的症状。数据集基于Kaggle的Symptom2Disease数据集改编，不包含个人敏感信息，且遵循Apache 2.0许可证。

提供机构：

gretelai

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本分类
任务ID: 多类分类
语言: 英语
标签: 医疗
美观名称: Gretel/symptoms_to_diagnosis
大小类别: 10K<n<100K

数据集描述

该数据集包含1065个英语描述的症状，每个症状标签对应22种诊断。数据集专注于细粒度的单一领域诊断。

数据字段

input_text: 包含症状的字符串字段
output_text: 包含诊断的字符串字段

诊断分布

数据集包含22种诊断，每种诊断在训练集和测试集中的分布如下：

诊断	训练集数量	测试集数量
药物反应	40	8
过敏	40	10
水痘	40	10
糖尿病	40	10
牛皮癣	40	10
高血压	40	10
颈椎病	40	10
支气管哮喘	40	10
静脉曲张	40	10
疟疾	40	10
登革热	40	10
关节炎	40	10
脓疱病	40	10
真菌感染	39	9
普通感冒	39	10
胃食管反流病	39	10
尿路感染	39	9
伤寒	38	9
肺炎	37	10
消化性溃疡病	37	10
黄疸	33	7
偏头痛	32	10

数据分割

训练集: 80% (853个样本, 167kb)
测试集: 20% (212个样本, 42kb)

数据集创建

数据经过筛选和更新，使用LLM技术使语言更符合患者向医生描述症状的自然语言。

源数据

该数据集基于Kaggle的Symptom2Disease数据集进行改编。

个人和敏感信息

数据集中的症状经过修改，不包含个人数据。

搜集汇总

数据集介绍

构建方式

该数据集源自Kaggle上的Symptom2Disease数据集，经过精心筛选与重构而成。原始数据中不相关的类别被剔除后，借助大语言模型（LLM）对症状描述进行改写，使其更贴近患者向医生口述病情时的自然语言表达习惯。最终形成了包含1065条英文症状描述、对应22种诊断标签的高质量语料库。数据以80%与20%的比例划分为训练集（853例）与测试集（212例），确保模型训练与评估的可靠性。

使用方法

该数据集适用于多类别文本分类任务，可直接用于微调预训练语言模型（如BERT、RoBERTa）或训练轻量级分类器。使用时，可将input_text作为模型输入，output_text作为目标标签，通过标准的有监督学习流程进行训练。数据以JSONL格式提供，便于加载与处理。研究人员还可基于Apache 2.0许可自由扩展或修改数据集，以适配更复杂的临床诊断场景。

背景与挑战

背景概述

在智能医疗辅助诊断领域，将患者自述的症状描述精准映射至对应疾病诊断是一项极具临床价值的研究课题。由Gretel团队于近期推出的gretelai/symptom_to_diagnosis数据集，旨在为细粒度单领域文本分类任务提供高质量标注资源。该数据集基于Kaggle平台上已有的Symptom2Disease数据集进行深度改造，通过大语言模型对原始症状描述进行自然语言重构，使其更贴近患者向医生口述病情的真实表达方式。数据集涵盖22种常见诊断类别，包含1065条英文症状-诊断配对样本，其中训练集与测试集按8:2比例划分。这一资源的构建，为开发面向初级诊疗场景的症状理解模型提供了标准化基准，推动了自然语言处理技术在医疗问诊自动化方向的应用探索。

当前挑战

该数据集所应对的核心挑战在于，医学文本分类任务中症状表述的多样性与非专业性。患者通常使用口语化、模糊甚至冗余的词汇描述病情，与结构化电子病历中的术语存在显著差异，这要求模型具备从自由文本中高效提取临床语义特征的能力。在数据构建层面，原始Kaggle数据集类别分布不均，部分诊断如偏头痛仅32条训练样本而药疹达到40条，这种长尾分布可能加剧模型对低频疾病的识别偏差。此外，通过LLM改写症状描述虽提升了语言自然度，但可能引入非典型表达或丢失关键症状细节，如何确保生成文本既保持临床准确性又符合患者表述习惯，仍是制约数据集泛化性能的重要瓶颈。

常用场景

经典使用场景

在自然语言处理与医学信息学的交叉领域中，gretelai/symptom_to_diagnosis数据集为细粒度单领域诊断任务提供了精心构建的文本资源。该数据集包含1065条以患者口吻描述的症状文本，覆盖22种常见疾病诊断标签，如药物反应、过敏、糖尿病等。其典型应用场景聚焦于基于症状描述的文本分类任务，研究人员可借此训练模型从非结构化患者主诉中精准识别潜在疾病。由于数据经过大语言模型润色，更贴近真实医患对话中的口语化表达，这使得该数据集成为评估和提升诊断模型在真实场景下泛化能力的理想基准。

解决学术问题

该数据集有效解决了医学自然语言处理中症状-诊断映射的细粒度分类难题。传统数据集往往存在标签分布不均或症状描述过于结构化的问题，而gretelai/symptom_to_diagnosis通过平衡的22类标签设计和自然语言化改写，为多分类任务提供了高质量训练样本。它帮助研究者攻克了从非标准化患者叙述中提取诊断线索的学术挑战，推动了基于文本的疾病推理模型发展。其意义在于弥合了临床术语与日常表达之间的鸿沟，为构建可解释的辅助诊断系统奠定了数据基础，进而促进了医疗AI在初级分诊和健康咨询领域的可信度提升。

实际应用

在实际应用中，该数据集支撑着智能问诊系统的核心功能开发。例如，基于此数据训练的模型可嵌入在线健康平台或移动医疗应用，通过分析用户输入的症状描述（如“我头痛失眠且身体颤抖”），快速推荐可能的就诊科室或提供初步健康建议。它还可用于医疗对话机器人的意图识别模块，帮助系统理解患者主诉并生成针对性提问。此外，在远程医疗场景中，该数据集赋能自动病历预分类工具，辅助医生优先处理紧急病例，从而优化诊疗流程效率并减轻临床工作负担。

数据集最近研究