casos_clinicos_completos_1st

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/ilopezmon/casos_clinicos_completos_1st

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含患者医疗记录的数据集，具体字段包括年龄、性别、病史、手术史、生活习惯、基础情况、当前用药、家族史、就诊原因、症状、一般检查、体征、检查结果、临床推理、最终诊断、药物治疗、非药物治疗、社会因素、过敏史、参考文献、类别、关键词、ICD-10编码、难度和记录块ID等。

创建时间：

2025-05-28

原始信息汇总

数据集概述

基本信息

数据集名称：casos_clinicos_completos_1st
下载大小：11,053,161 bytes
数据集大小：3,839,248 bytes
总样本数：814 (各分片样本数总和)

数据特征

数据集包含以下24个特征字段：

edad (年龄)
sexo (性别)
antecedentes_medicos (医疗史)
antecedentes_quirurgicos (手术史)
habitos (生活习惯)
situacion_basal (基础状况)
medicacion_actual (当前用药)
antecedentes_familiares (家族史)
motivo (就诊原因)
sintomas (症状)
exploracion_general (一般检查)
signos (体征)
resultados_pruebas (检查结果)
razonamiento_clinico (临床推理)
diagnostico_final (最终诊断)
tratamiento_farmacologico (药物治疗)
tratamiento_no_farmacologico (非药物治疗)
factores_sociales (社会因素)
alergias (过敏史)
referencias_bibliograficas (参考文献)
categoria (类别)
keywords (关键词)
codigo_cie_10 (ICD-10编码)
dificultad (难度等级)
chunk_id (分块ID)

数据分片

数据集分为10个分片，具体信息如下：

分片名称	样本数	数据大小(bytes)
part_00000	100	431,605
part_00001	100	398,268
part_00002	100	449,476
part_00003	100	395,088
part_00004	100	425,528
part_00005	100	426,084
part_00006	100	428,834
part_00007	100	412,744
part_00008	100	416,366
part_last	14	55,255

配置信息

默认配置名称：default
数据文件路径：所有分片数据文件均位于data/目录下

搜集汇总

数据集介绍

构建方式

在临床医学研究领域，全面而系统的病例数据对于医学教育和临床决策支持具有重要意义。casos_clinicos_completos_1st数据集通过结构化采集真实临床病例构建而成，涵盖患者年龄、性别、医疗史、手术史等24个关键临床特征字段，数据以分块形式存储于10个独立分区中，共包含914例完整病例记录，每例病例均经过标准化编码处理并标注CIE-10疾病分类代码。

特点

该数据集最显著的特征在于其多维度的临床信息覆盖，不仅包含基础人口统计学数据和症状描述，还整合了体格检查结果、实验室检测数据、临床推理过程及最终治疗方案等完整诊疗链条。病例按难度分级并附带关键词标注，特别收录了药物与非药物治疗方案、社会因素影响等常规模板化病历中易被忽略的细节，为临床决策分析提供了丰富的上下文信息。

使用方法

研究人员可通过HuggingFace平台直接加载数据集各分区，每个分区包含约100例标准化病例数据。该数据集适用于临床决策支持系统开发、医学自然语言处理任务以及诊疗模式分析等多种应用场景。使用时应结合各字段的语义关联性，如将症状描述与最终诊断进行对照分析，或通过药物治疗方案反推临床推理过程，建议优先利用标注完善的categoria和dificultad字段进行病例筛选和分层研究。

背景与挑战

背景概述

casos_clinicos_completos_1st数据集是一个专注于临床病例研究的结构化数据集，涵盖了患者的年龄、性别、病史、症状、诊断及治疗方案等多维度信息。该数据集的构建旨在为医学研究和临床决策支持系统提供高质量的标准化数据资源。通过整合详细的临床记录和诊断结果，该数据集为研究人员提供了探索疾病模式、优化诊疗流程以及开发智能医疗辅助工具的重要基础。其多字段设计反映了真实临床场景的复杂性，对推动精准医学和人工智能在医疗领域的应用具有显著价值。

当前挑战

该数据集面临的核心挑战在于临床数据的异构性和隐私保护问题。医疗记录通常包含非结构化文本和医学术语，标准化处理需要复杂的自然语言处理技术。构建过程中，确保数据匿名化与合规性成为关键难点，同时需平衡数据可用性与患者隐私。此外，临床病例的多样性和罕见病例的稀疏性对模型的泛化能力提出了更高要求，跨机构数据整合中的格式差异也增加了数据清洗的复杂度。

常用场景

经典使用场景

在临床医学教育领域，casos_clinicos_completos_1st数据集以其全面的患者临床记录为特色，成为医学生和住院医师进行病例分析的理想资源。该数据集通过真实场景下的年龄、性别、病史、症状等结构化字段，支持学习者系统性地训练临床推理能力，模拟从问诊到制定治疗方案的完整诊疗流程。

实际应用

医疗机构利用该数据集开发智能分诊系统，通过分析历史病例中的症状-诊断映射关系，实现急诊病例的优先级排序。药企研发部门则借助其中的药物治疗响应数据，辅助预测新药在不同患者群体中的潜在疗效差异，优化临床试验设计方案。

衍生相关工作

基于该数据集衍生的经典研究包括《临床决策树生成算法在西班牙语病例中的应用》，该工作创新性地将CIE-10编码体系与机器学习结合。另有团队开发了面向医学生的自适应学习系统ClinTrainer，其知识图谱构建核心便来源于本数据集的诊疗逻辑关系挖掘。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集