CareMedEval

Name: CareMedEval
Creator: 法国洛林大学,法国格勒诺布尔-阿尔卑斯大学,法国艾克斯-马赛大学
Published: 2025-11-05 21:02:06
License: 暂无描述

arXiv2025-11-05 更新2025-11-07 收录

下载链接：

https://www.cng.sante.fr/candidats/internats/concours-medicaux/etudiants/epreuves-classantes-nationales-ecn

下载链接

链接失效反馈

官方服务：

资源简介：

CareMedEval数据集是一个专门用于评估语言模型在生物医学领域进行批判性评估和推理任务的能力的数据集。该数据集来源于法国医学生的真实考试，包含基于37篇科学文章的534个问题。与现有基准不同，CareMedEval明确评估基于科学论文的批判性阅读和推理。在各种上下文条件下对最先进的通用和生物医学专业语言模型进行基准测试表明，这项任务的难度：开放和商业模型无法超过0.5的精确匹配率，尽管生成中间推理标记可以显著提高结果。然而，模型在关于研究局限性和统计分析的问题上仍然面临挑战。CareMedEval为基于情境的推理提供了一个具有挑战性的基准，揭示了当前语言模型的局限性，并为未来开发自动化支持批判性评估的推理技术铺平了道路。

The CareMedEval dataset is a specialized benchmark developed to assess the capabilities of language models in executing critical evaluation and reasoning tasks within the biomedical domain. Derived from real examinations for French medical students, this dataset contains 534 questions based on 37 scientific articles. Distinct from existing benchmarks, CareMedEval explicitly evaluates critical reading and reasoning grounded in peer-reviewed scientific papers. Benchmarking state-of-the-art general-purpose and biomedical-specialized language models across diverse contextual conditions demonstrates the difficulty of this task: both open-access and commercial models fail to exceed an exact match rate of 0.5, though generating intermediate reasoning tokens can substantially enhance their performance. Nonetheless, models still face challenges in addressing questions concerning research limitations and statistical analysis. CareMedEval offers a challenging benchmark for context-based reasoning, reveals the limitations of current language models, and paves the way for the future development of automated reasoning technologies that support critical evaluation.

提供机构：

法国洛林大学,法国格勒诺布尔-阿尔卑斯大学,法国艾克斯-马赛大学

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

CareMedEval数据集源自法国医学生国家考试的批判性阅读评估环节，通过系统收集真实医学教育场景中的试题构建而成。该数据集整合了来自法国国家医学考试网站和教学委员会发布的模拟考试资源，涵盖37篇经同行评审的生物医学研究论文。每道题目均与特定科学文献关联，并经过医学专家手动标注，确保问题与文章内容的高度一致性。数据采集过程严格遵循医学教育标准，试题均基于临床研究、流行病学等专业领域的真实科学出版物，体现了数据来源的权威性和专业性。

使用方法

使用该数据集时需构建完整的评估流程，将科学文献全文或摘要与对应问题组合输入模型。评估框架包含四种精心设计的指标：精确匹配率衡量答案完全正确比例，F1分数评估预测精度，汉明分数计算选项级准确率，LCA评分则模拟真实医学考试评分规则。实施时需采用零样本提示策略，明确设定模型作为医学专业人员的角色定位。通过对比模型在全文、摘要和无上下文三种条件下的表现，可系统评估其信息整合与推理能力。该数据集支持对通用模型与专业模型的对比分析，为开发生物医学领域推理系统提供重要基准。

背景与挑战

背景概述

CareMedEval数据集于2025年由法国洛林大学、格勒诺布尔-阿尔卑斯大学及艾克斯-马赛大学的研究团队联合发布，聚焦于生物医学领域科学文献的批判性评估能力测评。该数据集源自法国医学生在国家考试中使用的真实批判性阅读试题，涵盖37篇科学论文衍生的534道多选题，旨在填补现有基准在方法论批判与局限性识别能力评估上的空白。其创新性在于将问题直接锚定于完整科研文献，推动自然语言处理技术在医学持续教育中的可靠应用，为自动化科研评估工具的发展奠定了实证基础。

当前挑战

该数据集核心挑战集中于两大维度：在领域问题层面，需解决模型对研究局限性识别与统计结果解释的深层认知障碍，现有模型在涉及偏倚分析和统计推理的题目中表现显著滞后；在构建过程中，面临多语言文献（英文论文与法文试题）的语义对齐难题、医学专家标注一致性的保障，以及图文分离导致的统计信息缺失问题。此外，试题中普遍存在的多正确答案机制与真实考试评分规则的还原，进一步增加了任务复杂度与评估严谨性要求。

常用场景

经典使用场景

在生物医学领域，科学文献的批判性评估是专业人员的核心能力。CareMedEval数据集通过源自法国医学生真实考试的多选题，构建了一个评估大型语言模型在医学文献批判性阅读和推理能力的基准平台。该数据集包含534个基于37篇科学文章的问题，要求模型在理解研究设计、统计方法和局限性等维度上进行深度分析，从而模拟真实医学教育中的严格评估场景。

解决学术问题

CareMedEval数据集针对当前生物医学自然语言处理中的关键挑战，即模型在专业领域批判性推理的可靠性问题。它解决了现有基准在评估研究方法和偏见识别能力上的不足，通过标注问题所需的认知技能（如研究设计识别、统计解释和局限性分析），为衡量模型在真实科学文献基础上的推理能力提供了标准化工具。这一创新填补了领域内批判性评估数据资源的空白，推动了可靠医学人工智能支持系统的发展。

实际应用

该数据集在医学教育和临床实践中具有重要价值。它可用于开发自动化辅助工具，帮助医学生和专业人员高效评估新兴科学研究，特别是在快速更新的医学知识环境中。通过集成到检索增强生成系统或教育平台，CareMedEval能够支持临床决策前的证据质量审查，减少因研究方法缺陷导致的误判风险，最终提升医疗实践的科学性和安全性。

数据集最近研究