MedInfo2019-QA-Medications

Name: MedInfo2019-QA-Medications
Creator: Holon Institute of Technology, Afeka Academic College of Engineering
Published: 2025-09-15 19:31:25
License: 暂无描述

arXiv2025-09-15 更新2025-11-21 收录

下载链接：

https://github.com/Dvora-coder/LLM-Medication-QA-Risk-Classifier-MediGuard

下载链接

链接失效反馈

官方服务：

资源简介：

MedInfo2019-QA-Medications数据集是从MedInfo2019-QAMedications数据集中抽取的样本，该数据集与MEDIQA 2019共享任务紧密相关，旨在通过自然语言推理(NLI)和识别问题蕴涵(RQE)等任务来推进医学问答(QA)系统。数据集包含来自12个权威的美国国家卫生研究院(NIH)网站的47,457个医学问答对，包括MedlinePlus和Cancer.gov。本研究中，我们对650个示例进行了二元风险等级标注，标记为“一般”或“关键”。数据集高度不平衡，只有大约100个问题被标记为“关键”。

MedInfo2019-QA-Medications dataset is a subset sampled from the MedInfo2019-QAMedications dataset, which is closely associated with the MEDIQA 2019 shared task. This dataset aims to advance medical question answering (QA) systems via tasks such as natural language inference (NLI) and recognized question entailment (RQE). It contains 47,457 medical question-answer pairs sourced from 12 authoritative websites of the United States National Institutes of Health (NIH), including MedlinePlus and Cancer.gov. In this study, we performed binary risk level annotation on 650 samples, which were labeled as "General" or "Critical". The dataset is highly imbalanced, with only approximately 100 questions marked as "Critical".

提供机构：

Holon Institute of Technology, Afeka Academic College of Engineering

创建时间：

2025-09-15

搜集汇总

数据集介绍

构建方式

在医疗信息学领域，MedInfo2019-QA-Medications数据集的构建体现了对在线健康论坛中患者用药安全问题的深度关注。该数据集源自美国国立卫生研究院（NIH）下属的12个权威医疗网站，包括MedlinePlus和Cancer.gov等平台，共包含47,457对医学问答记录。研究团队从中筛选出650条用药相关提问，通过临床专家人工标注的方式，将其划分为“关键风险”与“普通咨询”两类标签。这种基于真实场景的标注策略，有效捕捉了患者用药过程中可能存在的混淆、误用及潜在健康危机信号。

特点

该数据集的核心价值在于其精准标注的风险层级与真实场景的医疗语言特征。标注过程中仅约100条问题被识别为关键风险类，形成了具有临床意义的非平衡数据分布，这种分布真实反映了在线医疗咨询中高风险事件的稀缺性。数据内容涵盖了从药物相互作用、剂量误差到并发症预警等多维度用药安全问题，例如同时服用血液稀释剂与布洛芬的潜在风险咨询。这些源自真实患者的非结构化文本，既包含专业医学术语，也融入了日常口语表达，为自然语言处理模型提供了丰富的语言特征学习样本。

使用方法

该数据集为医疗自然语言处理研究提供了多层次的实验平台。在传统机器学习层面，研究者可基于TF-IDF文本表征结合支持向量机等分类器构建基线模型；在深度学习领域，支持对BioBERT、BlueBERT等医学预训练模型进行微调，利用其特有的生物医学知识理解能力识别潜在风险。数据集特别适用于少样本学习场景，通过提示工程可实现基于大语言模型的零样本分类。此外，其标注体系为构建医疗问诊自动分诊系统、药物安全预警机制等实际应用提供了重要数据支撑，推动数字健康领域的实时干预技术发展。

背景与挑战

背景概述

MedInfo2019-QA-Medications数据集由以色列霍隆理工学院数字医疗技术系团队于2019年构建，旨在挖掘在线医疗论坛中患者用药问题的潜在风险信号。该数据集源自美国国立卫生研究院权威平台的4.7万条医患问答对，通过人工标注构建了650条二元风险标签数据，聚焦于识别可能预示药物误用或健康危机的关键询问。其研究推动了自然语言处理技术在患者生成内容分析中的应用，为数字健康领域的实时风险预警系统提供了重要数据基础。

当前挑战

该数据集需解决药物安全领域的关键挑战：在线医疗文本中隐含风险的精准识别，包括患者非正式表达中的歧义性、临床术语缺失及情感化描述对模型理解的干扰。构建过程中面临标注一致性难题，需平衡医学专业知识与语言多样性；数据高度不平衡使得关键案例仅占样本15%，加剧了模型训练的复杂度；同时，匿名论坛数据的伦理合规性与隐私保护要求亦对数据公开应用形成制约。

常用场景

经典使用场景

在数字健康研究领域，MedInfo2019-QA-Medications数据集被广泛应用于构建药物风险分类模型。该数据集通过标注在线医疗论坛中患者提问的临床风险等级，为自然语言处理技术提供了识别药物误用早期信号的基准平台。研究人员利用其标注的650条二元风险问题，系统评估了从传统TF-IDF到Transformer架构的多种分类器性能，显著推进了医疗文本风险分层方法的发展。

衍生相关工作

基于该数据集衍生的经典研究包括BioBERT与BlueBERT的领域适配探索。这些工作通过融合生物医学文献与临床电子病历的先验知识，显著提升了模型对非规范医疗表述的解析能力。后续研究进一步扩展至多模态风险识别框架，结合药物知识图谱与用户行为时序数据，形成了从文本分类到全景式风险预测的方法演进脉络。

数据集最近研究