CareMedEval
收藏arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://github.com/bonzid/CareMedEval
下载链接
链接失效反馈官方服务:
资源简介:
CareMedEval是一个法国数据集,专注于评估医学领域的批判性评估技能,用于科学文章。该数据集由534个问题组成,这些问题基于37篇科学文章,来源于法国医学院校的医学教育考试。数据集旨在评估模型在批判性阅读和推理方面的能力,涵盖了研究设计、方法论或局限性等方面的评估。
提供机构:
洛林大学,法国;格勒诺布尔-阿尔卑斯大学,法国;艾克斯-马赛大学,法国;法国国家科学研究中心,法国
创建时间:
2025-11-05
原始信息汇总
CareMedEval 数据集概述
数据集简介
CareMedEval(Critical appraisal and Reasoning Medical Evaluation)是一个法语多项选择题问答数据集,专注于评估医学领域科学文章的批判性评价能力,应用于法国医学教育。
数据来源
- 主要来源:法国国家医学考试(Epreuves Classantes Nationales, ECN)网站和法国国家治疗学教师学院(Collège National des Enseignants de Thérapeutique, CNET)网站
- 数据规模:包含534道来自法国六年级医学生批判性阅读考试(Lecture Critique dArticles, LCA)的题目
语言特征
- 科学文章:英语
- 问题、答案和理由:原始为法语
- 提供自动翻译的英语版本(位于
./english_only/目录)
标注体系
每个问题都经过手动标注,采用以下标签体系:
| 标签 | 描述 | 所需技能 |
|---|---|---|
| design | 研究设计识别 | 信息检索 |
| statistics | 统计理解和解释 | 通用知识、信息检索 |
| methodology | 科学方法学知识 | 通用概念理解 |
| limitations | 偏倚和局限性批判评价 | 情境推理 |
| applicability | 临床相关性和适用性 | 情境推理 |
数据结构
数据目录
- 完整数据集:
./data/all/(包含文章和问题) - 带人工理由的问题:
./data/with_justifications/(204/534题) - 需要上下文标注的子集:
./data/requires_context/(16题手动标注)
问题字段说明
id:唯一标识符id_article:关联文章IDsource_exam:考试来源URLdate_exam:考试日期article_link:文章链接article_date:文章发布日期question:问题文本answers:选项字典(A-E)correct_answers:正确答案列表essential_answers:必须选择的答案unacceptable_answers:不可接受的答案labels:问题标签justification:专家解释理由requires_context:是否需要文章上下文nb_correct_answers:正确答案数量
文章格式
- 文本格式:
.txt文件 - 原始格式:PDF文件
- 摘要版本:
./data/all/articles_abstract/目录
评估基准
数据集支持大规模语言模型在医学批判性评价能力方面的评估,重点关注基于文章文本内容的多项选择题问答任务。
引用信息
bibtex @misc{bonzi2025caremedevaldatasetevaluatingcritical, title={CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field}, author={Doria Bonzi and Alexandre Guiggi and Frédéric Béchet and Carlos Ramisch and Benoit Favre}, year={2025}, eprint={2511.03441}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.03441}, }
资源链接
- 代码仓库:https://github.com/bonzid/CareMedEval, https://huggingface.co/datasets/doriab/CareMedEval
- 论文:https://arxiv.org/abs/2511.03441
- 联系人:Doria BONZI (doria.bonzi@loria.fr), Alexandre GUIGGI (alexandre.guiggi@gmail.com)
搜集汇总
数据集介绍

构建方式
在生物医学领域持续知识更新的背景下,CareMedEval数据集通过系统采集法国国家级医学考试(ECN)及教学委员会认证的模拟考试(CNET)中的批判性阅读试题构建而成。该数据集包含基于37篇真实科学文献的534道多选题,所有文献均来自经同行评审的临床研究,涵盖随机对照试验、观察性研究等多种医学研究设计。数据采集过程中采用专业医学专家进行人工标注,为每道题目标注了研究设计识别、统计理解、方法论认知、局限性批判和临床适用性等五大认知技能标签,并针对部分题目提供了临床推理依据的详细解析。
使用方法
该数据集支持多场景评估框架,研究者可通过提供完整文献、仅摘要或无上下文三种模式测试模型性能。评估时需使用角色导向的法语提示词,将模型设定为具备严谨数据解读能力的医师角色,并要求严格遵循指定输出格式。基准评估采用精确匹配率、F1分数、汉明分数和LCA考试评分四种指标,其中LCA评分特别模拟真实医学考试评分规则,对缺失必需答案或选择禁忌答案的情况实施零分惩罚。这种评估机制能有效衡量模型在真实医疗场景中的批判性推理能力。
背景与挑战
背景概述
在生物医学领域,科学文献的批判性评估是医学专业人员持续学习的关键能力。CareMedEval数据集由法国洛林大学、格勒诺布尔-阿尔卑斯大学和艾克斯-马赛大学的研究团队于2025年创建,旨在评估大型语言模型在生物医学批判性推理任务中的表现。该数据集源自法国医学生国家考试的真实试题,包含基于37篇科学文献的534道多选题,聚焦于研究设计识别、统计结果解读及方法论局限性分析等核心问题,填补了现有生物医学基准在批判性评估能力测评上的空白。
当前挑战
该数据集针对生物医学文献批判性评估这一复杂认知任务,需解决模型在识别研究局限性与统计分析方法时的推理能力不足问题。构建过程中面临多重挑战:需从法语医学考试中提取并标注多维度认知标签,确保问题与科学文献的严格对应;同时需处理原始PDF文献的格式转换与语义完整性保留,并协调英语科学文献与法语问题表述的跨语言对齐。此外,数据规模受限及专业标注依赖单一领域专家,亦对数据质量的泛化性提出更高要求。
常用场景
经典使用场景
在生物医学领域,科学文献的批判性评估是医学教育和实践中的核心能力。CareMedEval数据集通过源自法国医学生真实考试的多选题,构建了一个专门评估大型语言模型在医学文献批判性阅读和推理能力的基准。该数据集包含534个基于37篇科学文章的问题,覆盖研究设计、统计分析和局限性识别等多个维度,为模型提供了在真实医学语境下进行深度推理的测试平台。
解决学术问题
CareMedEval解决了生物医学自然语言处理中批判性推理评估的缺失问题。传统基准如PubMedQA或MedQA主要关注事实性知识检索,而该数据集首次系统性地评估模型对研究方法论、统计证据和潜在偏见的分析能力。通过引入基于真实医学考试的评分标准,它揭示了当前模型在理解研究局限性和统计解释方面的显著不足,推动了领域内对模型推理可靠性的深入研究。
实际应用
该数据集在医学教育和技术开发中具有重要应用价值。医学院校可利用其构建自动化评估工具,辅助医学生培养批判性阅读技能。在临床实践中,基于CareMedEval训练的模型能够帮助医生快速评估新发表研究的可靠性,支持循证医学决策。此外,制药企业和研究机构可借助该基准开发文献综述辅助系统,提升科研效率与质量。
数据集最近研究
最新研究方向
在生物医学领域,CareMedEval数据集正推动大型语言模型在科学文献批判性评估方面的前沿研究。该数据集源自法国医学生的真实考试,聚焦于模型对研究设计、统计分析和局限性识别的推理能力,填补了现有基准在方法论评估上的空白。当前研究热点集中于探索检索增强生成技术与长上下文处理机制如何提升模型对全文信息的理解效率,同时揭示生成中间推理标记能显著改善答案准确性,尤其在统计解释和偏差识别等复杂任务中。这一进展不仅暴露了现有模型在专业领域推理的局限性,也为开发自动化医疗决策支持工具奠定了评估基础,对推动循证医学发展具有深远意义。
相关研究论文
- 1CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field洛林大学,法国;格勒诺布尔-阿尔卑斯大学,法国;艾克斯-马赛大学,法国;法国国家科学研究中心,法国 · 2025年
以上内容由遇见数据集搜集并总结生成



