R2MED
收藏arXiv2025-05-21 更新2025-05-22 收录
下载链接:
https://github.com/R2MED/R2MED
下载链接
链接失效反馈官方服务:
资源简介:
R2MED是一个为推理驱动的医学检索设计的基准数据集,由876个查询组成,涵盖了问答参考检索、临床证据检索和临床案例检索三个任务。这些任务来自五个代表性的医疗场景和十二个身体系统,反映了现实世界中医疗信息需求的复杂性和多样性。数据集的创建过程包括数据收集、相关文档挖掘和专家审核。R2MED旨在解决当前医学检索基准主要强调词汇或浅层语义相似性,而忽略了临床决策中推理密集型需求的问题。
R2MED is a benchmark dataset designed for reasoning-driven medical retrieval, consisting of 876 queries covering three tasks: question answering reference retrieval, clinical evidence retrieval, and clinical case retrieval. These tasks are derived from five representative medical scenarios and twelve body systems, reflecting the complexity and diversity of real-world medical information demands. The dataset creation process includes data collection, relevant document mining, and expert review. R2MED aims to address the issue that current medical retrieval benchmarks primarily emphasize lexical or shallow semantic similarity while neglecting reasoning-intensive information demands in clinical decision-making.
提供机构:
中国人民大学高瓴人工智能学院, 北京智源人工智能研究院
创建时间:
2025-05-21
原始信息汇总
R2MED: 一个推理驱动的医学检索基准
数据集概述
- 名称:R2MED (Reasoning-Driven Medical Retrieval Benchmark)
- 类型:高质量、高分辨率的合成信息检索(IR)数据集
- 应用场景:医学领域
- 规模:包含876个查询,涵盖3种检索任务、5个医学场景和12个人体系统
数据集组成
| 子数据集 | 查询数(#Q) | 文档数(#D) | 平均正例数(Avg. Pos) | 查询平均长度(Q-Len) | 文档平均长度(D-Len) |
|---|---|---|---|---|---|
| Biology | 103 | 57359 | 3.6 | 115.2 | 83.6 |
| Bioinformatics | 77 | 47473 | 2.9 | 273.8 | 150.5 |
| Medical Sciences | 88 | 34810 | 2.8 | 107.1 | 122.7 |
| MedXpertQA-Exam | 97 | 61379 | 3.0 | 233.2 | 154.9 |
| MedQA-Diag | 118 | 56250 | 4.4 | 167.8 | 179.7 |
| PMC-Treatment | 150 | 28954 | 2.1 | 449.3 | 149.3 |
| PMC-Clinical | 114 | 60406 | 2.2 | 182.8 | 480.4 |
| IIYi-Clinical | 129 | 10449 | 3.5 | 602.3 | 1273.0 |
数据获取
-
下载地址:Hugging Face数据集
-
数据结构:
${DATASET_ROOT} ├── query.jsonl # 查询文件 ├── corpus.jsonl # 文档文件 └── qrels.txt # 相关标签文件
评估功能
-
检索模型评估:
- 支持15种代表性检索模型
- 命令示例:
python run.py --mode eval_retrieval --task {task} --retriever_name {retriever_name}
-
重排序模型评估:
- 支持3种代表性重排序模型
- 命令示例:
python run.py --mode eval_reranker --task {task} --retriever_name {retriever_name} --reranker_name {reranker_name} --recall_k {recall_k}
-
假设文档生成:
- 支持10+种代表性LLM
- 命令示例:
python run.py --mode generate_hydoc --task {task} --gar_method {gar_method} --gar_llm {gar_llm}
引用信息
bibtex @article{xxx, title={R2MED: A Benchmark for Reasoning-Driven Medical Retrieval}, author={Lei Li, Xiao Zhou, and Zheng Liu}, journal={arXiv preprint arXiv:xxxx}, year={2025} }
相关链接
搜集汇总
数据集介绍

构建方式
R2MED数据集的构建采用了多阶段流程,首先从高质量医学语料库中系统性地收集数据,涵盖五个代表性医学场景和十二个身体系统。通过检索委员会策略挖掘潜在相关文档,并利用GPT-4o进行细粒度相关性评估。最终由医学专家进行三重标准审查,确保临床有效性和事实可靠性,形成包含876个查询的基准测试集。
特点
R2MED作为首个专注于医学推理检索的基准,其核心特征体现在三个方面:任务设计上包含问答参考检索、临床证据检索和临床案例检索三类推理密集型任务;数据分布上覆盖5种临床情境和12个器官系统,具有显著的临床多样性;评估维度上强调文档与潜在推理路径的语义对齐而非表层匹配,现有最优模型nDCG@10仅达31.4,凸显其挑战性。
使用方法
使用R2MED时需要关注其多模态评估框架:对于检索系统,应输入原始查询并评估其返回文档与隐含推理答案的语义关联;当结合大语言模型时,可通过生成中间推理步骤构建增强查询;在临床决策支持场景中,建议重点关注案例检索任务中诊断轨迹的匹配度,并参照专家评审标准进行结果验证。
背景与挑战
背景概述
R2MED(Reasoning-Driven Medical Retrieval Benchmark)是由中国人民大学高瓴人工智能学院和北京智源人工智能研究院的研究团队于2025年提出的首个专注于医学推理检索的基准数据集。该数据集针对当前医学信息检索基准主要关注词汇或浅层语义相似性、而忽视临床决策中核心的推理密集型需求这一关键问题,构建了包含876个查询的评测体系,涵盖问答参考检索、临床证据检索和临床案例检索三大任务,涉及5个典型医疗场景和12个人体系统。R2MED的创新性在于其强调查询与相关文档之间通过隐含推理路径建立关联的特性,而非传统基于表层形式匹配的检索范式,为提升医学检索系统的临床决策支持能力提供了重要研究平台。
当前挑战
R2MED面临的核心挑战体现在两个方面:领域问题层面,传统检索模型在需要复杂临床推理的场景中表现显著下降(最优模型nDCG@10仅31.4),暴露出语义匹配与真实临床需求间的本质差距;构建技术层面,数据收集需处理非对称相关性(仅3.6%查询与文档存在词汇重叠),且需通过多阶段专家验证确保推理路径的医学合理性。具体挑战包括:1) 医疗实体隐含关联的建模困难(如症状-诊断的非显性联系);2) 跨模态临床证据的异构性整合(影像学检查与文本报告的协同推理);3) 检索结果可解释性要求与模型复杂度间的平衡。这些挑战推动了生成增强检索、大语言模型推理等新技术在医学检索领域的探索。
常用场景
经典使用场景
R2MED数据集在医学信息检索领域中被广泛用于评估和提升推理驱动的检索系统性能。其经典使用场景包括医学问答参考检索、临床证据检索和临床案例检索,涵盖了从基础医学知识到复杂临床决策的全方位需求。通过模拟真实临床环境中医生检索权威医学证据以支持诊断假设的过程,R2MED为研究者提供了一个高度逼真的测试平台。
实际应用
在实际应用中,R2MED数据集可助力开发临床决策支持系统,帮助医生快速定位疑难病例的相关医学文献。其推理驱动的设计特别适用于电子健康记录分析、循证医学实践和医学教育等领域。例如,在诊断不典型症状时,系统基于R2MED训练的模型能有效检索与潜在诊断相关的证据,而非仅匹配表面症状描述,显著提升临床工作效率和诊断准确性。
衍生相关工作
R2MED的发布催生了一系列创新性研究,包括基于大型推理模型的检索增强生成(RAG)系统、多模态医学检索框架以及专门针对临床推理优化的稠密检索模型。相关工作如推理增强的BMRetriever、结合视觉-语言模型的MedRAG等,都在该基准上实现了性能突破。这些衍生工作共同推动了医学人工智能从知识检索向认知推理的范式转变。
以上内容由遇见数据集搜集并总结生成



