来自NICE指南的临床LLMs银标准数据集

Name: 来自NICE指南的临床LLMs银标准数据集
Creator: 伦敦大学学院
Published: 2025-11-03 03:13:37
License: 暂无描述

arXiv2025-11-03 更新2025-11-06 收录

下载链接：

https://www.nice.org.uk/guidance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由英国国家卫生与护理卓越研究所（NICE）发布的临床指南衍生而来，包含多个专业的临床可操作声明，以及真实的患者场景和临床问题。数据集采用先进的蒸馏方法和优化提示，通过LLM过滤生成，并由临床专家和LLM进行审查，确保临床相关性。该数据集可用于评估LLMs在临床场景中的实用性和指南遵从性。

This dataset is derived from the clinical guidelines published by the National Institute for Health and Care Excellence (NICE). It includes multiple specialized clinical actionable statements, as well as real-world patient scenarios and clinical questions. Developed via advanced distillation methods and optimized prompts, the dataset was generated through LLM-based filtering and reviewed by both clinical experts and LLMs to ensure its clinical relevance. This dataset can be used to evaluate the practical utility and guideline adherence of LLMs in clinical scenarios.

提供机构：

伦敦大学学院

创建时间：

2025-11-03

搜集汇总

数据集介绍

构建方式

在临床指南标准化评估框架的构建过程中，该数据集通过结构化知识蒸馏方法从英国国家卫生与临床优化研究院（NICE）发布的十项临床指南中提取核心内容。采用o4-mini模型对指南文本进行自动化处理，首先通过精准提示工程筛选出具有临床可操作性的声明，随后建立五维度评分体系对声明进行质量过滤，最终基于验证后的声明生成包含患者场景、临床问题及标准答案的三元组数据。整个流程融合临床专家监督与自动化评估，确保数据与权威指南的高度一致性。

特点

该数据集的核心价值体现在其多维度临床覆盖与严谨的质量控制机制。数据内容横跨卵巢癌、糖尿病、心力衰竭等十大专科领域，每个临床声明均通过症状描述、药物治疗、诊断决策、风险管理和人群适配五个维度的二元评分验证，形成具备明确临床行动指向的知识单元。通过将抽象指南转化为具象化的患者场景-问题对，数据集既保留了原始文本的精确性，又构建了贴近真实诊疗的推理环境，为评估语言模型的临床合规性提供了高生态效度的基准。

使用方法

在临床自然语言处理研究领域，该数据集可作为评估模型指南依从性的核心工具。研究者可通过加载标准化提示模板，要求模型根据给定患者场景生成临床决策，并将输出与数据集中的标准答案进行自动化指标对比。评估体系涵盖ROUGE、BLEU等文本匹配度指标以及BERTScore等语义相似度度量，同时支持临床专家对关键案例进行人工验证。这种双轨评估机制既能量化模型性能，又能深入分析错误模式，为医疗AI的安全性验证提供方法论支撑。

背景与挑战

背景概述

随着大型语言模型在医疗领域的广泛应用，临床指南的标准化评估成为关键需求。伦敦大学学院研究团队于2025年创建了基于英国国家健康与护理卓越研究院指南的银标准数据集，通过知识蒸馏技术从十大专科指南中提炼可执行的临床声明。该数据集构建了包含临床场景、问题与标准答案的三元组结构，为评估语言模型的临床推理能力提供了权威基准，填补了医疗人工智能领域缺乏标准化评测体系的空白。

当前挑战

在解决临床指南依从性评估问题时，面临模型幻觉与输出错误的风险控制挑战，以及跨专科知识整合的复杂性。数据集构建过程中需克服非结构化PDF文档的语义解析难题，通过五维评分系统确保临床声明的可操作性，同时平衡自动生成与专家验证的精度要求，最终在500组场景中实现医疗准确性与逻辑一致性的统一。

常用场景

经典使用场景

在临床自然语言处理领域，该数据集作为评估大型语言模型遵循指南能力的重要基准。通过构建基于NICE指南的真实患者场景与临床问题配对，研究人员能够系统测试模型在诊断决策、治疗方案推荐等核心医疗任务中的表现。这种评估框架特别适用于衡量模型输出与权威临床指南的一致性，为医疗AI的可信度验证提供了标准化工具。

实际应用

在医疗实践场景中，该数据集支撑的评估框架可直接应用于医院信息系统和临床决策支持工具的质量控制。通过测试模型在糖尿病管理、高血压治疗等常见病种上的指南依从性，医疗机构能够筛选出最适合临床辅助的AI模型。这种基于权威指南的验证机制，为AI工具在基层医疗和专科诊疗中的安全集成提供了重要保障。

衍生相关工作

基于该数据集的评估范式，衍生出多个重要的研究方向。其中包括临床声明自动提取技术的优化、多模态医疗数据的指南对齐方法，以及跨机构指南一致性验证框架。这些工作进一步推动了检索增强生成技术在医疗领域的应用，建立了从指南文本到临床决策的端到端评估链条，为后续医疗大模型的标准化测评奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集