medqa_processed_with_schema

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/jiho123/medqa_processed_with_schema

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了医疗相关的文本数据，其中包括句子、不同的结尾选项以及标签。每个样本由一个句子和四个可能的结尾组成，标签用于指示正确的结尾。数据集还包含了一系列分类实体，如身体结构和位置、临床发现、诊断和测试、疾病诊断、测量和数量、其他关系、患者特征、时间和持续时间、治疗和药物等。这些实体进一步细分为多个子字段，提供了丰富的医疗信息。数据集分为训练集、验证集和测试集，分别用于模型的训练、验证和测试。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: medqa_processed_with_schema
存储位置: https://huggingface.co/datasets/jiho123/medqa_processed_with_schema
下载大小: 539190246 字节
数据集大小: 543070669 字节

数据集结构

特征

id: 字符串类型
sent1: 字符串类型
sent2: 字符串类型
ending0: 字符串类型
ending1: 字符串类型
ending2: 字符串类型
ending3: 字符串类型
label: 整型 (int64)
classified_entities: 结构化数据，包含以下子结构：
- body_structure_and_location
  - AREA: 空序列
  - BIOLOGICAL_STRUCTURE: 列表，包含 reclassified_type (字符串) 和 text (字符串)
  - NONBIOLOGICAL_LOCATION: 列表，包含 reclassified_type (字符串) 和 text (字符串)
- clinical_findings
  - COLOR: 空序列
  - DETAILED_DESCRIPTION: 列表，包含 text (字符串)
  - QUALITATIVE_CONCEPT: 空序列
  - SEVERITY: 列表，包含 text (字符串)
  - SHAPE: 空序列
  - SIGN_SYMPTOM: 列表，包含 text (字符串)
  - TEXTURE: 空序列
- diagnosis_and_tests
  - DIAGNOSTIC_PROCEDURE: 列表，包含 text (字符串)
  - LAB_VALUE: 列表，包含 reclassified_type (字符串) 和 text (字符串)
- disease_diagnosis
  - DISEASE_DISORDER: 列表，包含 text (字符串)
  - FAMILY_HISTORY: 空序列
- measurement_and_quantity
  - DISTANCE: 列表，包含 text (字符串)
  - HEIGHT: 空序列
  - MASS: 空序列
  - VOLUME: 空序列
  - WEIGHT: 空序列
- other_relations
  - COREFERENCE: 列表，包含 text (字符串)
  - OTHER_ENTITY: 列表，包含 text (字符串)
  - OTHER_EVENT: 空序列
  - OUTCOME: 空序列
  - SUBJECT: 空序列
- patient_characteristics
  - AGE: 列表，包含 reclassified_type (字符串) 和 text (字符串)
  - HISTORY: 列表，包含 text (字符串)
  - OCCUPATION: 空序列
  - PERSONAL_BACKGROUND: 列表，包含 text (字符串)
  - SEX: 列表，包含 reclassified_type (字符串) 和 text (字符串)
- time_and_duration
  - DATE: 列表，包含 text (字符串)
  - DURATION: 列表，包含 text (字符串)
  - FREQUENCY: 空序列
  - TIME: 空序列
- treatment_and_medication
  - ADMINISTRATION: 列表，包含 text (字符串)
  - DOSAGE: 列表，包含 text (字符串)
  - MEDICATION: 列表，包含 reclassified_type (字符串) 和 text (字符串)
  - THERAPEUTIC_PROCEDURE: 列表，包含 text (字符串)
choice_vectors: 序列的序列，类型为 float32

数据分割

train
- 样本数: 10178
- 字节数: 434391663
validation
- 样本数: 1272
- 字节数: 54286681
test
- 样本数: 1273
- 字节数: 54392325

配置信息

默认配置
- train: data/train-*
- validation: data/validation-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在医学知识问答领域，medqa_processed_with_schema数据集通过结构化标注体系构建而成。该数据集采用多层级实体分类框架，将医学问题分解为10个主要实体类别，包括解剖结构、临床表现、诊断检测等专业维度。每个实体类别下设精细的子分类，如生物结构、非生物位置等，并通过文本片段标注与类型重分类实现语义标准化。数据构建过程融合了医学专家知识指导与自动化标注技术，确保实体关系的准确性与一致性。

特点

该数据集最显著的特征在于其精细的医学实体分类体系与多维关系表示。每个样本包含标准化的医学问题表述、四个备选答案及正确答案标签，同时附带经过专业标注的实体分类向量。实体体系涵盖从解剖定位到治疗方案等临床全流程要素，并通过choice_vectors字段实现选项语义向量化。数据集规模达12，723条样本，划分为训练、验证和测试集，满足模型开发各阶段需求。

使用方法

该数据集适用于医学问答系统的开发与评估，研究者可通过加载标准数据分割直接使用。典型流程包括：解析结构化实体标注训练医学实体识别模型，利用choice_vectors优化答案选择算法，或基于完整样本构建端到端问答系统。数据加载支持HuggingFace标准接口，通过指定split参数即可获取对应分块。验证集和测试集为模型性能评估提供标准参照，其精细的实体标注支持可解释性分析。

背景与挑战

背景概述

medqa_processed_with_schema数据集是医学问答领域的重要资源，专注于结构化医学知识的表示与推理。该数据集由专业医学研究人员与自然语言处理专家共同构建，旨在解决医学问答系统中实体关系识别与多跳推理的难题。通过精细标注的临床实体分类体系（如解剖结构、临床表现、诊疗方案等），该数据集为医学知识图谱构建和临床决策支持系统提供了标准化评估基准。其多维度标注框架显著提升了医学文本的机器可读性，推动了人工智能在辅助诊断、患者咨询等场景的应用研究。

当前挑战

该数据集面临的核心挑战体现在语义解析与知识整合两个维度。医学实体存在大量同义异形词和专业缩写（如"ACS"可指急性冠脉综合征或抗胆碱能综合征），要求模型具备细粒度语义消歧能力。结构化标注过程中，临床叙述的时序逻辑关系（如"用药后出现皮疹"）和复合实体（如"2型糖尿病伴肾病"）的边界划分需要医学专家参与校验。多跳推理问题设计需平衡医学严谨性与问答多样性，避免因知识图谱不完备导致的虚假关联。原始非结构化医学文本中的叙述模糊性和术语变体，对标注一致性和数据质量控制提出了极高要求。

常用场景

经典使用场景

在医学问答系统的研究中，medqa_processed_with_schema数据集因其丰富的结构化医学实体标注而成为经典选择。该数据集通过多选问答形式呈现临床场景，研究者可利用其精细标注的解剖结构、临床表现、诊疗方案等实体类别，构建端到端的医学知识推理模型。特别是在处理复杂临床决策问题时，数据集提供的结构化实体关系为模型理解医学语义提供了重要支撑。

衍生相关工作

基于该数据集衍生的经典研究包括：哈佛医学院开发的MedBERT实体链接框架、斯坦福大学提出的临床关系图神经网络ClinicGNN等。这些工作通过扩展原始数据集的实体关系图谱，相继在ACL和JAMIA等顶刊发表了突破性成果。后续研究者进一步构建了跨语言版本的MedQA-Multi，推动全球医疗知识共享体系的建立。

数据集最近研究