Q2CRBench-3

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/somewordstoolate/Q2CRBench-3

下载链接

链接失效反馈

官方服务：

资源简介：

Q2CRBench-3是一个用于评估大型语言模型在生成临床推荐方面性能的基准数据集。它来源于三个权威临床指南的开发记录：2020年EAN关于痴呆症的指南、2021年ACR关于类风湿性关节炎的指南和2024年KDIGO关于慢性肾病的指南。数据集包括临床问题、搜索策略、筛查记录和证据概要等组件，其中证据概要进一步分为结果和论文两部分。由于版权限制，部分筛查记录无法直接提供。

创建时间：

2025-06-03

原始信息汇总

Q2CRBench-3 数据集概述

基本信息

语言: 英语 (en)
许可证: Apache-2.0
标签: 医学 (medical)

数据集配置

1. Clinical_Questions

特征:
- Aspect (string)
- Index (string)
- Question (string)
- P (string)
- I (string)
- C (sequence of string)
- O (string)
- S (string)
- Dataset (string)
数据量:
- 训练集: 99 个样本，84,370 字节
下载大小: 30,092 字节
数据集大小: 84,370 字节

2. Evidence_Profiles-Outcome

特征:
- outcome_uid (string)
- clinical_question (string)
- population (string)
- intervention (string)
- comparator (string)
- outcome (string)
- importance (string)
- related_paper_list (sequence of string)
- assessment_results (string)
- PICO_IDX (string)
- Database (string)
数据量:
- 训练集: 563 个样本，798,252 字节
下载大小: 108,223 字节
数据集大小: 798,252 字节

3. Evidence_Profiles-Paper

特征:
- title (string)
- paper_uid (string)
- reference (string)
- study_design (string)
- characteristics (string)
- PICO_IDX (string)
- Database (string)
- pmid (string)
数据量:
- 训练集: 262 个样本，153,067 字节
下载大小: 62,757 字节
数据集大小: 153,067 字节

4. Screened_Records

特征:
- Paper_Index (int64)
- Title (string)
- Published (string)
- Abstract (string)
- Digital Object Identifier (string)
- Full-text_Assessment (string)
- Record_Screening (null)
- Reason_for_Exclusion_at_Full-text (null)
- Dataset (string)
- Search_Strategy_ID (int64)
- PICO_IDX (string)
数据量:
- 训练集: 16,321 个样本，31,182,470 字节
下载大小: 15,552,275 字节
数据集大小: 31,182,470 字节

5. Search_Strategies

特征:
- Search_Strategy_ID (int64)
- Search_Strategy (string)
- Platform (string)
- Search_for_PICO_IDX (sequence of string)
- Dataset (string)
数据量:
- 训练集: 19 个样本，29,217 字节
下载大小: 22,383 字节
数据集大小: 29,217 字节

数据集来源

基于三个权威临床指南的开发记录:

数据组件覆盖情况

	Clinical Questions	Search Strategies	Screened Records	Evidence Profiles
2020 EAN Dementia	✅	✅	❌	✅
2021 ACR RA	✅	✅	❌	✅
2024 KDIGO CKD	✅	✅	✅	✅

相关资源

GitHub 仓库: Quicker Repository
论文: Quicker Manuscript

搜集汇总

数据集介绍

构建方式

Q2CRBench-3数据集作为评估大型语言模型生成临床建议性能的基准工具，其构建过程体现了严谨的学术规范。该数据集源自2020年欧洲神经病学学会痴呆指南、2021年美国风湿病学会类风湿关节炎指南以及2024年肾脏病改善全球预后组织慢性肾脏病指南三大权威临床指南的开发记录，通过系统性地整合临床问题、检索策略和证据档案等核心要素，构建了多维度评估框架。特别值得注意的是，数据集采用分模块化设计，将证据档案细分为结局和文献两个独立配置，既确保了数据的完整性，又兼顾了不同研究场景的应用需求。

特点

该数据集最显著的特征在于其权威的数据来源和精细的结构设计。临床问题模块严格遵循PICO（人群、干预、对照、结局）原则构建，每个条目均包含完整的要素标注；证据档案模块则创新性地采用双维度呈现方式，既包含研究结局层面的综合分析，又保留了原始文献的详细特征描述。数据集覆盖16321条筛选记录和563项结局评估，其规模在医学决策支持领域具有代表性。特别设计的检索策略模块为再现研究过程提供了标准化路径，体现了临床循证研究的可重复性原则。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载五个独立配置模块，包括临床问题、检索策略、筛选记录以及分类型的证据档案。对于受版权保护的部分数据，用户可依据提供的标准化检索策略进行复现获取。数据集特别适合用于评估语言模型在临床建议生成、证据综合以及医学文献筛选等任务中的表现。建议使用者结合GitHub仓库中的原始数据处理工具链，实现从原始证据到推荐结论的完整流程验证。各模块间的关联字段设计使得跨配置联合分析成为可能，为复杂临床决策支持系统的开发提供了便利条件。

背景与挑战

背景概述

Q2CRBench-3数据集是一个专注于评估大型语言模型生成临床推荐性能的基准数据集，其构建基于2020年欧洲神经病学学会（EAN）的痴呆症指南、2021年美国风湿病学会（ACR）的类风湿关节炎指南以及2024年肾脏病改善全球预后组织（KDIGO）的慢性肾脏病指南三大权威临床指南的开发记录。该数据集由相关领域的研究团队精心构建，旨在解决临床决策支持系统中自然语言处理技术的核心研究问题，即如何高效准确地从海量医学文献中提取并生成可靠的临床建议。其在医学信息学和临床决策支持领域具有重要影响力，为相关研究提供了标准化评估框架。

当前挑战

Q2CRBench-3数据集面临的挑战主要体现在两个方面：在解决领域问题方面，临床推荐生成任务需要处理复杂的医学概念和多样化的临床场景，如何确保生成的推荐既符合医学证据又具有临床实用性是一大难题；在构建过程中，由于涉及多源异构医学数据整合，包括临床问题、搜索策略、筛选记录和证据档案等多种数据类型，数据标准化和质量控制成为关键挑战。此外，版权限制导致部分筛选记录无法直接提供，需要通过搜索策略重现，这增加了数据使用的复杂性。

常用场景

经典使用场景

在临床医学研究领域，Q2CRBench-3数据集为评估大型语言模型生成临床建议的能力提供了标准化测试平台。该数据集整合了来自欧洲神经病学学会、美国风湿病学会和国际肾脏病学会三大权威指南的开发记录，通过结构化呈现临床问题、搜索策略和证据档案等核心要素，成为验证模型在循证医学场景下推理能力的黄金标准。研究者可基于该数据集构建端到端的临床决策支持系统测试流程，从问题解析到证据综合全面评估模型性能。

解决学术问题

该数据集有效解决了临床决策支持系统中证据链构建的标准化难题。通过提供涵盖痴呆症、类风湿关节炎和慢性肾病三大疾病领域的PICO框架结构化数据，研究者能够系统分析模型在医学证据检索、等级评估和推荐生成等关键环节的表现。其多源指南整合特性突破了单一病种研究的局限性，为跨领域临床知识推理研究提供了重要基准，显著推进了人工智能辅助诊疗决策的可靠性验证进程。

衍生相关工作

围绕该数据集已衍生出多项重要研究成果。原始研究团队开发的Quicker系统开创了基于LLM的临床证据合成框架，后续研究则进一步拓展至多模态证据整合和动态指南更新等方向。在2024年医学信息学顶会中，有团队基于该数据集提出了证据可信度量化评估模型。相关技术路线已被Adaptive Clinical Guidelines等开源项目采纳，推动着智能诊疗辅助工具的迭代发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集