mohammad2928git/complete_medical_symptom_dataset

Name: mohammad2928git/complete_medical_symptom_dataset
Creator: mohammad2928git
Published: 2024-07-08 13:44:38
License: 暂无描述

Hugging Face2024-07-08 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/mohammad2928git/complete_medical_symptom_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如文本、标签、症状、代码、名称、治疗、年龄、性别、病理学、证据等。数据集主要用于训练，包含1,300,022个示例，总大小为1,835,646,019字节，下载大小为323,856,718字节。数据集的配置文件中指定了训练数据文件的路径。

This dataset includes multiple features such as text, label, symptoms, code, name, treatments, age, differential diagnosis, sex, pathology, evidences, and initial evidence. Each feature has its data type, such as string or integer. The dataset is divided into a training set, containing 1,300,022 samples, with a total size of 1,835,646,019 bytes. The download size of the dataset is 323,856,718 bytes.

提供机构：

mohammad2928git

原始信息汇总

数据集概述

数据集信息

特征

text: 类型为字符串。
label: 类型为整数（int64）。
symptoms: 类型为字符串序列。
lebel_text: 类型为字符串序列。
Code: 类型为整数（int64）。
Name: 类型为字符串。
Symptoms: 类型为字符串。
Treatments: 类型为字符串。
AGE: 类型为整数（int64）。
DIFFERENTIAL_DIAGNOSIS: 类型为字符串。
SEX: 类型为字符串。
PATHOLOGY: 类型为字符串。
EVIDENCES: 类型为字符串。
INITIAL_EVIDENCE: 类型为字符串。

数据分割

train: 包含1,300,022个样本，总字节数为1,835,646,019。

数据集大小

下载大小: 323,856,718字节。
数据集大小: 1,835,646,019字节。

配置

default: 包含训练数据文件，路径为data/train-*。

搜集汇总

数据集介绍

构建方式

该数据集名为mohammad2928git/complete_medical_symptom_dataset，旨在为医疗领域的自然语言处理任务提供结构化支撑。其构建方式依托于对临床症状、诊断及治疗信息的系统化整理，将原始医疗文本转化为包含文本、标签、症状序列、诊断代码、患者年龄与性别、病理学证据等多维字段的表格化数据。数据集共包含约130万条训练样本，存储于统一的训练分割中，每条记录均通过文本与标签的对应关系以及症状与治疗等字段的关联，实现了从非结构化临床描述到结构化知识表示的映射，从而为模型训练提供了丰富且规范的医学语料基础。

特点

该数据集的核心特点在于其多维度的信息整合与细粒度的标注体系。除了基础的文本与标签对，数据集还引入了症状序列（symptoms）和标签文本（lebel_text）等序列化字段，能够捕捉症状之间的组合关系与文本语义。同时，数据集涵盖了诊断代码（Code）、疾病名称（Name）、具体症状（Symptoms）、治疗方案（Treatments）、患者年龄（AGE）与性别（SEX）、鉴别诊断（DIFFERENTIAL_DIAGNOSIS）及病理学证据（EVIDENCES）等临床关键要素，形成了从初始证据到最终诊断的完整链条。这种多字段协同的结构，使得数据集不仅适用于文本分类，还可支撑症状提取、诊断推理、治疗推荐等复杂医疗任务。

使用方法

该数据集的使用方法灵活多样，主要面向自然语言处理与医学信息学的研究场景。用户可通过HuggingFace的datasets库直接加载默认配置，利用train分割中的约130万条样本进行模型训练。在应用时，可将文本字段作为输入，标签字段作为分类目标，用于构建疾病诊断或症状识别模型；也可利用症状序列和标签文本字段进行序列标注或多标签分类任务。此外，年龄、性别、病理学证据等辅助字段可作为特征增强模型性能，或用于探索不同人群的疾病分布规律。推荐在加载后对数据进行清洗与划分，以适应监督学习或迁移学习的特定需求。

背景与挑战

背景概述

在智能医疗与临床决策支持系统蓬勃发展的当下，高质量、结构化的症状-疾病关联数据集成为推动医学自然语言处理进步的核心基石。由研究者mohammad2928git于近期构建的complete_medical_symptom数据集，汇聚了超过130万条训练样本，涵盖症状、病理、鉴别诊断、治疗方案及患者人口学特征等多维信息。该数据集旨在弥合临床自由文本与结构化医学知识之间的鸿沟，为自动化诊断推理、症状模式挖掘及个性化治疗推荐提供大规模标注语料。其发布不仅丰富了中文医疗知识图谱的底层资源，更推动了跨模态医学信息融合的研究进程，对提升基层医疗辅助系统的准确性与鲁棒性具有深远意义。

当前挑战

该数据集面临的挑战首先体现在医学领域问题的复杂性上：症状与疾病之间并非简单的一一映射，常存在非典型表现、共病干扰及罕见病例，导致模型在鉴别诊断中易产生混淆。其次，构建过程中面临多重技术难题：原始数据来源异构，需统一症状表述的标准化编码（如ICD映射），并处理缺失值（如年龄、性别字段的空白）与噪声（如症状描述中的口语化表达）。此外，数据集中“EVIDENCES”与“INITIAL_EVIDENCE”字段的语义层级差异，要求算法具备从初始线索到综合证据的推理能力，这对现有序列标注与分类模型构成了显著挑战。

常用场景

经典使用场景

在临床医学与自然语言处理的交叉领域中，complete_medical_symptom数据集以其庞大的规模（逾130万条样本）和丰富的结构化信息脱颖而出。该数据集不仅记录了患者症状、年龄、性别等基础人口学特征，还涵盖了鉴别诊断、病理类型、治疗措施及循证医学证据等深度临床变量，为构建智能辅助诊断系统提供了坚实的标注基础。研究者常利用其多维度特征，训练能够从非结构化症状描述中精准推断疾病名称与治疗方案的深度学习模型。

解决学术问题

该数据集核心解决了医学文本信息抽取与疾病预测中的两大挑战：一是症状-疾病映射关系的稀疏性与歧义性，通过大规模标注数据增强了模型对复杂临床表现的泛化能力；二是多模态临床决策支持问题，其包含的鉴别诊断链与证据链可直接用于验证因果推理算法。其意义在于推动从经验医学向数据驱动精准医疗的范式转变，为开发可解释性强的临床预测模型提供了标准化基准，显著提升了疾病分类与治疗方案推荐的学术研究可信度。

衍生相关工作

基于该数据集衍生了多项标志性工作，包括症状语义嵌入向量的预训练模型（如MedSymptomBERT），以及融合年龄、性别与鉴别诊断信息的图神经网络诊断框架。此外，研究者利用其证据链字段构建了因果推理模型，实现了从初始症状到最终病理的端到端推演。这些工作不仅提升了罕见病识别准确率，还催生了可解释性更强、临床可操作性更高的智能诊断系统，成为后续多模态医疗AI研究的基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集