celikmus/symptom_text_to_disease_01_strat

Name: celikmus/symptom_text_to_disease_01_strat
Creator: celikmus
Published: 2023-03-10 12:04:59
License: 暂无描述

Hugging Face2023-03-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/celikmus/symptom_text_to_disease_01_strat

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: labels dtype: class_label: names: '0': emotional pain '1': hair falling out '2': heart hurts '3': infected wound '4': foot ache '5': shoulder pain '6': injury from sports '7': skin issue '8': stomach ache '9': knee pain '10': joint pain '11': hard to breath '12': head ache '13': body feels weak '14': feeling dizzy '15': back pain '16': open wound '17': internal pain '18': blurry vision '19': acne '20': muscle pain '21': neck pain '22': cough '23': ear ache '24': feeling cold splits: - name: train num_bytes: 330494.3762197868 num_examples: 5328 - name: test num_bytes: 41373.82675273983 num_examples: 667 - name: valid num_bytes: 41311.79702747335 num_examples: 666 download_size: 146293 dataset_size: 413180.0 --- # Dataset Card for "symptom_text_to_disease_01_strat" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 名称：text，数据类型：字符串 - 名称：labels，数据类型为类别标签（class_label），其类别映射如下： '0': 情绪痛苦（emotional pain） '1': 脱发（hair falling out） '2': 心脏不适（heart hurts） '3': 感染伤口（infected wound） '4': 足部疼痛（foot ache） '5': 肩部疼痛（shoulder pain） '6': 运动损伤（injury from sports） '7': 皮肤病症（skin issue） '8': 腹痛（stomach ache） '9': 膝关节疼痛（knee pain） '10': 关节疼痛（joint pain） '11': 呼吸困难（hard to breath） '12': 头痛（head ache） '13': 身体乏力（body feels weak） '14': 眩晕感（feeling dizzy） '15': 背部疼痛（back pain） '16': 开放性伤口（open wound） '17': 内脏疼痛（internal pain） '18': 视力模糊（blurry vision） '19': 痤疮（acne） '20': 肌肉疼痛（muscle pain） '21': 颈部疼痛（neck pain） '22': 咳嗽（cough） '23': 耳部疼痛（ear ache） '24': 畏寒感（feeling cold）数据集划分： - 名称：训练集（train），字节数：330494.3762197868，样本数量：5328 - 名称：测试集（test），字节数：41373.82675273983，样本数量：667 - 名称：验证集（valid），字节数：41311.79702747335，样本数量：666 下载大小：146293，总数据集大小：413180.0 # "症状文本转病症数据集（symptom_text_to_disease_01_strat）"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

celikmus

原始信息汇总

数据集概述

数据集名称

名称: symptom_text_to_disease_01_strat

数据集特征

特征名称: text
- 数据类型: string
特征名称: labels
- 数据类型:
  - 类别标签:
    - 0: emotional pain
    - 1: hair falling out
    - 2: heart hurts
    - 3: infected wound
    - 4: foot ache
    - 5: shoulder pain
    - 6: injury from sports
    - 7: skin issue
    - 8: stomach ache
    - 9: knee pain
    - 10: joint pain
    - 11: hard to breath
    - 12: head ache
    - 13: body feels weak
    - 14: feeling dizzy
    - 15: back pain
    - 16: open wound
    - 17: internal pain
    - 18: blurry vision
    - 19: acne
    - 20: muscle pain
    - 21: neck pain
    - 22: cough
    - 23: ear ache
    - 24: feeling cold

数据集划分

训练集:
- 样本数: 5328
- 数据大小: 330494.3762197868 bytes
测试集:
- 样本数: 667
- 数据大小: 41373.82675273983 bytes
验证集:
- 样本数: 666
- 数据大小: 41311.79702747335 bytes

数据集大小

下载大小: 146293 bytes
总数据集大小: 413180.0 bytes

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量的症状文本数据集对于疾病分类模型的训练至关重要。该数据集通过精心设计的流程，收集了涵盖多种常见健康问题的症状描述文本，并采用分层抽样策略确保类别分布的均衡性。数据来源于真实或模拟的患者主诉，经过人工或自动化标注，将每段文本对应到24种具体的疾病或症状类别，最终划分为训练集、验证集和测试集，为模型评估提供了可靠基础。

特点

本数据集的核心特点在于其清晰的文本-标签对应结构和广泛的症状覆盖范围。特征维度简洁，仅包含文本内容和类别标签，便于直接应用于分类任务。标签体系细致地归纳了从‘情绪疼痛’到‘咳嗽’等24类常见健康问题，反映了日常医疗咨询中的多样性。数据经过分层处理，各类别在训练、验证和测试集中分布均匀，有效减少了模型训练的偏差，提升了泛化能力。

使用方法

该数据集专为症状文本的多分类任务设计，使用者可将其直接加载至机器学习框架中。通常，文本特征需经过分词、向量化等预处理，标签则作为监督信号。研究人员可利用训练集构建分类模型，如基于Transformer的架构，并通过验证集调整超参数，最终在测试集上评估模型性能，如准确率、召回率等指标。它适用于探索症状描述与疾病预测之间的映射关系，推动医疗辅助诊断工具的开发。

背景与挑战

背景概述

在医疗人工智能领域，症状文本到疾病的自动分类是提升临床辅助诊断效率的关键研究方向。数据集celikmus/symptom_text_to_disease_01_strat由研究人员或机构celikmus创建，旨在通过自然语言处理技术，将患者描述的症状文本映射到特定的疾病类别。该数据集涵盖了从情绪疼痛到咳嗽等24种常见健康问题，核心研究问题聚焦于如何从非结构化的症状描述中准确识别潜在疾病，从而为远程医疗和智能问诊系统提供数据支持，推动医疗文本分析向更精细化、自动化方向发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，症状文本到疾病分类任务需克服自然语言描述的模糊性和多样性，例如同一疾病可能对应多种症状表达，而不同疾病又可能共享相似症状，这增加了模型区分和泛化的难度；在构建过程中，挑战包括症状文本的标准化标注，需要医学专业知识确保标签的准确性，同时数据集的规模有限，可能影响模型在更广泛疾病谱系上的性能表现，以及数据平衡性问题，某些罕见症状类别样本不足可能导致分类偏差。

常用场景

经典使用场景

在医疗自然语言处理领域，celikmus/symptom_text_to_disease_01_strat数据集为症状文本到疾病分类任务提供了关键资源。该数据集通过结构化标注，将患者描述的症状文本映射至24种常见疾病类别，典型应用于训练和评估文本分类模型。研究者利用其分层划分的训练、验证和测试集，能够系统性地开发算法，实现从非结构化症状叙述中自动识别潜在疾病，这为医疗诊断辅助系统的构建奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列专注于医疗文本分类与疾病预测的经典研究工作。这些工作通常涉及改进预训练语言模型（如BERT、RoBERTa）在特定医疗领域的适应能力，探索少样本学习、迁移学习等技术以应对数据不平衡问题。部分研究进一步整合了外部医学知识图谱，以增强模型推理的可解释性。这些衍生成果不仅深化了症状-疾病关联的理解，也推动了更精准、可靠的医疗人工智能应用的发展。

数据集最近研究