R2MED

github2025-05-23 更新2025-05-26 收录

下载链接：

https://github.com/R2MED/R2MED

下载链接

链接失效反馈

官方服务：

资源简介：

R2MED是一个高质量、高分辨率的合成信息检索（IR）数据集，专为医学场景设计。它包含876个查询，涵盖三个检索任务、五个医学场景和十二个身体系统。

R2MED is a high-quality, high-resolution synthetic information retrieval (IR) dataset specifically designed for medical scenarios. It encompasses 876 queries, covering three retrieval tasks, five medical scenarios, and twelve body systems.

创建时间：

2025-05-15

原始信息汇总

R2MED: 一个基于推理的医学检索基准数据集

数据集概述

名称: R2MED (Reasoning-Driven Medical Retrieval Benchmark)
类型: 高质量、高分辨率的合成信息检索(IR)数据集
应用场景: 医学领域
规模: 包含876个查询，涵盖3种检索任务、5个医学场景和12个人体系统

数据集组成

子数据集	查询数(#Q)	文档数(#D)	平均正例数(Avg. Pos)	查询平均长度(Q-Len)	文档平均长度(D-Len)
Biology	103	57359	3.6	115.2	83.6
Bioinformatics	77	47473	2.9	273.8	150.5
Medical Sciences	88	34810	2.8	107.1	122.7
MedXpertQA-Exam	97	61379	3.0	233.2	154.9
MedQA-Diag	118	56250	4.4	167.8	179.7
PMC-Treatment	150	28954	2.1	449.3	149.3
PMC-Clinical	114	60406	2.2	182.8	480.4
IIYi-Clinical	129	10449	3.5	602.3	1273.0

数据获取

下载地址: Hugging Face数据集
数据结构:

${DATASET_ROOT} ├── query.jsonl # 查询文件 ├── corpus.jsonl # 文档文件 └── qrels.txt # 相关标签文件

评估方法

检索模型评估:
- 支持15种代表性检索模型
- 命令: python run.py --mode eval_retrieval --task {task} --retriever_name {retriever_name}
重排序模型评估:
- 支持3种代表性重排序模型
- 命令: python run.py --mode eval_reranker --task {task} --retriever_name {retriever_name} --reranker_name {reranker_name} --recall_k {recall_k}
假设文档生成:
- 支持10+种代表性LLM生成方法
- 命令: python run.py --mode generate_hydoc --task {task} --gar_method {gar_method} --gar_llm {gar_llm}

引用信息

bibtex @article{li2025r2med, title={R2MED: A Benchmark for Reasoning-Driven Medical Retrieval}, author={Li, Lei and Zhou, Xiao and Liu, Zheng}, journal={arXiv preprint arXiv:2505.14558}, year={2025} }

相关资源

论文: arXiv:2505.14558
官网: R2MED官网
排行榜: R2MED排行榜

搜集汇总

数据集介绍

构建方式

R2MED数据集作为医学信息检索领域的重要基准，其构建过程体现了严谨的科学方法论。研究团队从八个专业医学子领域采集数据，涵盖生物学、生物信息学、医学科学等核心学科，通过系统化的数据收集和标注流程，最终形成包含876个查询的高质量数据集。每个查询均关联多个相关文档，平均相关文档数达3.1份，文档平均长度控制在83.6至1273.0词之间，确保了数据的广度和深度。数据来源包括专业医学数据库和经过验证的临床资料，所有数据均经过领域专家严格审核。

特点

R2MED数据集最显著的特点在于其专业性和多样性。该数据集覆盖五个典型医疗场景和十二个人体系统，包含三种不同类型的检索任务，为医学信息检索研究提供了全面的测试平台。数据规模方面，各子集文档数量从10,449到57,359不等，查询长度从107.1词到602.3词，呈现出丰富的文本特征。特别值得注意的是，数据集特别关注医学推理能力评估，通过精心设计的查询-文档对，能够有效检验模型在复杂医学场景下的逻辑推理和信息整合能力。

使用方法

使用R2MED数据集需要遵循标准化的评估流程。研究者可通过Hugging Face平台获取数据集，按照规定的目录结构组织数据文件。评估系统支持15种主流检索模型和3种重排序模型的测试，用户只需通过简单的命令行参数即可启动评估过程。数据集特别设计了假设文档生成功能，支持10余种大型语言模型的性能测试。对于自定义模型的集成，开发者只需按照提供的接口规范实现编码功能，即可无缝接入评估框架。所有评估结果可自动提交至官方排行榜，便于研究社区进行横向比较。

背景与挑战

背景概述

R2MED数据集由中国人民大学高瓴人工智能学院与北京智源人工智能研究院联合研发，于2025年正式发布，旨在构建首个以医学推理为核心的信息检索基准。该数据集包含876组高质量医学查询，覆盖三大检索任务、五种医疗场景及十二大人体系统，其创新性在于将临床推理逻辑融入检索评估体系。作为医学信息检索领域的重要里程碑，R2MED通过精细标注的查询-文档相关性标签，为提升医疗决策支持系统的认知智能水平提供了关键数据支撑。

当前挑战

医学信息检索面临专业术语理解、跨模态数据关联及临床推理链条构建三重挑战。R2MED需解决医学文献中嵌套式专业概念的语义消歧问题，其构建过程中遭遇标注一致性难题——要求医学专家在症状描述、治疗方案等维度建立细粒度关联。数据集设计需平衡学科覆盖广度与专业深度，既要确保生物学基础研究与临床诊疗数据的代表性，又要处理不同医疗场景下检索指标的差异性评估。

常用场景

经典使用场景

在医学信息检索领域，R2MED数据集为研究者提供了一个高质量的基准测试平台，涵盖了生物学、生物信息学、医学科学等多个子领域。其经典使用场景包括评估不同检索模型在复杂医学查询中的性能表现，特别是在处理长文本和多模态数据时的效果。通过模拟真实的医学检索需求，该数据集能够有效测试模型在跨学科医学知识中的推理能力。

解决学术问题

R2MED数据集主要解决了医学信息检索中的两大核心学术问题：一是如何提升模型在专业医学领域的语义理解能力，二是如何评估检索系统在复杂推理任务中的表现。该数据集通过精心设计的查询-文档对和标注体系，为研究者提供了量化评估模型推理能力的标准，填补了传统检索评估在医学垂直领域的空白，对推动医学人工智能的发展具有重要意义。

衍生相关工作

基于R2MED数据集，研究者已开展多项创新工作。在模型架构方面，衍生出专门针对医学检索的BERT变体MedCPT；在评估方法上，开发了结合大语言模型的检索增强生成技术；在应用层面，推动了医学问答系统MedXpertQA和诊断辅助工具MedQA-Diag的发展，这些工作都显著提升了医学信息处理的智能化水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集