Q2CRBench-3

Name: Q2CRBench-3
Creator: 浙江大学医学院生物医学工程与仪器科学学院; 教育部EMR与智能专家系统工程研究中心, 中国科学院北京协和医学院北京协和医院风湿免疫科和临床免疫科; 科技部国家临床研究中心皮肤病与免疫病; 国家复杂重大疾病重点实验室; 教育部风湿免疫学及临床免疫学重点实验室, 中国科学院北京协和医学院; 浙江实验室科学数据中心
Published: 2025-05-15 21:30:39
License: 暂无描述

arXiv2025-05-15 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10282v1

下载链接

链接失效反馈

官方服务：

资源简介：

Q2CRBench-3数据集是一个用于临床推荐开发的基准数据集，基于三种不同疾病的临床指南开发记录构建。该数据集包括三种疾病的数据集，分别为2021年美国风湿病学会（ACR）类风湿性关节炎（RA）指南、2020年欧洲神经学会（EAN）痴呆症指南和2024年改善全球肾脏病预后（KDIGO）慢性肾脏病（CKD）指南。每个数据集包括五个相互关联的阶段：问题分解、文献检索、研究选择、证据评估和推荐制定。数据集包含近26200条文献记录，其中99.49%在筛选过程中被排除。Q2CRBench-3是第一个全面捕捉临床推荐制定完整端到端过程的综合基准数据集，旨在促进未来方法学的发展和领域内研究。

Q2CRBench-3 is a benchmark dataset for clinical recommendation development, constructed based on clinical guideline development records of three distinct diseases. This dataset encompasses three sub-datasets corresponding to three clinical guidelines: the 2021 American College of Rheumatology (ACR) rheumatoid arthritis (RA) guideline, the 2020 European Academy of Neurology (EAN) dementia guideline, and the 2024 Kidney Disease: Improving Global Outcomes (KDIGO) chronic kidney disease (CKD) guideline. Each sub-dataset covers five interrelated stages: problem decomposition, literature search, study selection, evidence appraisal, and recommendation formulation. The dataset contains nearly 26,200 literature records, with 99.49% of them being excluded during the screening process. Q2CRBench-3 is the first comprehensive benchmark dataset that fully captures the entire end-to-end process of clinical recommendation development, aiming to facilitate the advancement of methodological research and relevant studies in this field.

提供机构：

浙江大学医学院生物医学工程与仪器科学学院; 教育部EMR与智能专家系统工程研究中心, 中国科学院北京协和医学院北京协和医院风湿免疫科和临床免疫科; 科技部国家临床研究中心皮肤病与免疫病; 国家复杂重大疾病重点实验室; 教育部风湿免疫学及临床免疫学重点实验室, 中国科学院北京协和医学院; 浙江实验室科学数据中心

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

Q2CRBench-3数据集基于三种不同疾病的临床指南开发记录构建而成，涵盖了从问题分解到临床建议生成的完整流程。该数据集通过系统化的文献检索、研究筛选、证据评估和推荐制定五个标准化阶段，确保了数据的全面性和逻辑连贯性。构建过程中采用了严格的PICO模型（Population, Intervention, Comparison, Outcome）进行问题分解，并利用GRADE方法评估证据质量，确保了数据集的科学性和可靠性。

特点

Q2CRBench-3数据集的特点在于其全面性和权威性。数据集包含了来自美国风湿病学会（ACR）、欧洲神经病学学会（EAN）和肾脏病改善全球预后组织（KDIGO）的临床指南开发记录，覆盖了风湿性关节炎、痴呆和慢性肾脏病三种疾病。数据集不仅涵盖了大量的文献记录（总计26200篇），还详细记录了每个阶段的中间输出和最终建议，为研究临床决策支持系统提供了丰富的实验数据。此外，数据集的构建严格遵循了循证医学的原则，确保了其在实际临床应用中的可信度。

使用方法

Q2CRBench-3数据集主要用于评估临床决策支持系统（如Quicker系统）的性能。研究人员可以通过该数据集验证系统在问题分解、文献检索、研究筛选、证据评估和推荐生成各阶段的准确性和效率。数据集的使用方法包括单阶段评估和系统级评估，支持人类专家与AI系统的协作测试。此外，数据集还支持灵活的任务配置，允许研究人员根据具体需求选择不同的实现方法（如零样本提示、少样本提示或自反思提示），从而全面评估系统的性能。数据集的使用文档和代码已在GitHub上公开，便于研究人员复现和扩展实验。

背景与挑战

背景概述

Q2CRBench-3是由浙江大学和北京协和医院等机构的研究团队于2025年开发的一个专注于临床决策支持的基准数据集。该数据集基于三种不同疾病的临床指南开发记录构建，旨在评估大型语言模型(LLMs)在从临床问题到循证建议的完整决策流程中的表现。数据集的核心研究问题是探索如何利用人工智能技术自动化循证医学中的证据合成过程，从而支持更高效、准确的临床决策。Q2CRBench-3的建立为临床决策支持系统的开发和评估提供了重要基准，推动了人工智能在医疗领域的应用。

当前挑战

Q2CRBench-3面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，数据集需要解决临床决策中的复杂问题，如证据检索的全面性与准确性之间的平衡、研究选择的效率与质量权衡等。在构建过程中，挑战包括如何从临床指南开发记录中提取结构化信息、处理大规模文献数据的筛选与标注、以及确保数据集覆盖多样化的临床场景。此外，数据集还需要解决临床术语标准化、多语言文献处理等技术难题，以及如何保持与最新医学证据同步更新的挑战。

常用场景

经典使用场景

Q2CRBench-3数据集在临床决策支持系统（CDSS）的开发与评估中扮演了核心角色。该数据集基于三种疾病的临床指南开发记录构建，为研究者提供了一个标准化的基准，用于验证从临床问题到推荐建议的端到端自动化流程。其典型应用场景包括大型语言模型（LLM）在问题分解、文献检索、研究筛选、证据评估和推荐生成五个阶段的性能测试，尤其适用于验证类似Quicker系统的证据合成能力。数据集的结构化设计模拟了真实临床指南开发流程，使得研究者能够量化评估系统在敏感性、精确度和时间效率等关键指标上的表现。

衍生相关工作

Q2CRBench-3催生了多个创新研究方向：一是基于其模块化评估框架，衍生出针对PICO元素提取的细粒度语言模型优化方法（如自反思提示技术）；二是启发开发了迭代式检索智能体（Agentic Search），在文献检索阶段实现95.65%的敏感度；三是推动GRADE证据评估的自动化研究，相关成果被扩展至风险偏倚检测工具开发。数据集还促进了跨模型比较研究，如DeepSeek-v3与GPT-4o在证据提取任务中的性能对比，为医学领域LLM选型提供实证依据。

数据集最近研究