MedRevQA, MedChangeQA

Name: MedRevQA, MedChangeQA
Creator: 慕尼黑工业大学,德国; 计算机科学与技术系,计算学院
Published: 2025-09-04 23:17:50
License: 暂无描述

arXiv2025-09-04 更新2025-09-06 收录

下载链接：

https://github /jvladika/MedChange

下载链接

链接失效反馈

官方服务：

资源简介：

MedRevQA和MedChangeQA数据集是从医学系统评价中提取的两个问答数据集。MedRevQA包含16,501个问答对，覆盖了广泛的生物医学知识；MedChangeQA是MedRevQA的子集，包含512个问答对，这些问答对在医学共识发生变化后仍然保留。这些数据集旨在评估大型语言模型（LLMs）对过时医学知识的记忆情况，并为开发更可靠和当前的医疗AI系统奠定基础。

MedRevQA and MedChangeQA are two question-answering (QA) datasets extracted from medical systematic reviews. MedRevQA contains 16,501 QA pairs covering a broad spectrum of biomedical knowledge, while MedChangeQA, a subset of MedRevQA, comprises 512 QA pairs retained even after shifts in medical consensus. These datasets are designed to evaluate large language models (LLMs) on their memorization of outdated medical knowledge, and lay a foundation for developing more reliable and up-to-date medical AI systems.

提供机构：

慕尼黑工业大学,德国; 计算机科学与技术系,计算学院

创建时间：

2025-09-04

搜集汇总

数据集介绍

构建方式

在医学知识快速演进的背景下，MedRevQA与MedChangeQA数据集的构建依托于Cochrane系统评价文献，这些文献被视为医学证据金字塔的顶端。通过Python脚本从PubMed抓取2000年至2024年的Cochrane摘要，利用GPT-4o-mini模型半自动化生成问题与标签：问题源自文献目标章节的疑问句重构，标签则根据作者结论划分为支持、反驳或证据不足三类，最终形成16,501对问答数据。其中512对涉及医学共识随时间变化的实例被单独提取为MedChangeQA子集，所有标签均经过医学背景人员的双重人工校验以确保质量。

特点

该数据集的核心特征体现在其时效性与权威性层面。MedRevQA全面覆盖生物医学各学科，问题类型均衡分布为支持、反驳及证据不足三类，反映了真实医学研究中的不确定性。MedChangeQA子集则专门捕捉医学知识的动态演变，例如从证据不足到支持或反驳的结论转变，揭示了20-30%的 Cochrane 评价随时间更新的现象。数据集标签经过严格人工校正，MedChangeQA达到黄金标准，而MedRevQA保持白银标准，95%的问题生成准确率和92%的标签准确率确保了其在评估大语言模型记忆过时知识方面的可靠性。

使用方法

该数据集主要用于零样本环境下评估大语言模型对过时医学知识的记忆程度。使用时需将医学问题作为输入，要求模型预测支持、反驳或证据不足三类标签，且不提供额外上下文以检验其内部知识编码。评估指标采用宏平均精确率、召回率和F1分数，通过比较模型在过时标签与最新标签上的表现差异，量化其依赖陈旧知识的程度。例如，在MedChangeQA上分别以过时标签和最新标签作为基准进行测试，其分数差可直接反映模型知识更新的滞后性，为医学AI的持续学习与知识纠偏提供实证基础。

背景与挑战

背景概述

医学知识快速迭代的特性对大型语言模型在医疗领域的应用构成严峻挑战。慕尼黑工业大学Juraj Vladika团队于2025年创建的MedRevQA与MedChangeQA数据集，源自Cochrane系统评价数据库，包含16,501个生物医学问答对及其512个具有时序知识变更的子集。该数据集通过构建动态知识基准，首次系统评估了LLMs对过时医学知识的记忆程度，为医疗AI的安全性研究提供了关键基础设施。

当前挑战

该数据集核心挑战在于解决医学知识时效性验证问题：需精准识别随新证据迭代而改变的临床共识，并量化LLMs对历史知识的记忆强度。构建过程中面临双重挑战：一是从海量医学文献中提取具有时序标签的问答对需保证标注一致性，二是需区分知识更新与证据不足的情况以避免误判。数据半自动生成机制虽提升效率，但需通过人工校验维持92%-95%的准确率阈值。

常用场景

经典使用场景

在医疗人工智能领域，MedRevQA和MedChangeQA数据集被广泛应用于评估大型语言模型对过时医学知识的记忆程度。研究者利用这些数据集进行零样本测试，要求模型仅基于内部编码知识回答医学问题，从而揭示模型在动态医学知识更新中的局限性。

解决学术问题

该数据集解决了医学自然语言处理中模型知识时效性的关键问题，通过系统评价构建的问答对验证模型对过时共识的依赖程度。其意义在于为量化医学知识衰减提供了基准，推动了针对知识冲突、持续学习等缓解策略的研究，对提升临床AI可靠性具有深远影响。

衍生相关工作

基于该数据集衍生了多项重要研究，包括检索增强生成技术优化、医学知识冲突解析框架开发，以及针对模型记忆机制的机器遗忘方法探索。这些工作进一步推动了动态知识更新、证据检索排序等方向的发展，形成了医学AI时效性研究的完整生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集