CancerGUIDE

Name: CancerGUIDE
Creator: Microsoft
Published: 2026-01-29 03:26:02
License: 暂无描述

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/microsoft/CancerGUIDE

下载链接

链接失效反馈

官方服务：

资源简介：

CancerGUIDE合成患者数据是一个由GPT-4.1生成的合成肿瘤学患者档案数据集，包含患者描述和推荐治疗方案。该数据集采用结构化和非结构化两种生成方法，旨在为评估和训练大型语言模型（LLMs）在遵循指南和临床推理任务中提供基准。数据集包含两个JSON文件：synthetic_structured（165条记录）和synthetic_unstructured（151条记录），每条记录包含患者ID、患者描述文本和推荐治疗方案标签。数据集由微软研究院策划，使用CC BY 4.0许可，适用于临床指南遵循性评估、结构化临床推理任务模型训练等研究用途，但不适用于真实临床决策或生产系统。数据集完全合成，不包含任何个人身份信息或真实临床数据。

提供机构：

Microsoft

创建时间：

2026-01-29

原始信息汇总

CancerGUIDE Synthetic Patient Data 数据集概述

数据集基本信息

数据集名称： CancerGUIDE Synthetic Patient Data
维护方： Microsoft Research
语言： 英文
许可证： CC BY 4.0
相关论文： CancerGUIDE: Evaluating Guideline-Following in Large Language Models for Oncology
代码仓库： https://aka.ms/CancerGUIDE

数据集摘要

CancerGUIDE Synthetic Patient Data 包含由GPT-4.1生成的合成肿瘤学患者档案及其推荐治疗方案。该数据集遵循《CancerGUIDE》论文中描述的方法论，采用结构化和非结构化两种生成方式构建。该数据旨在作为评估和训练大语言模型在遵循指南和临床推理任务中的基准。

数据集详情

数据集描述

该数据集由合成的肿瘤学患者记录及相应的治疗建议组成。每条记录包含一个由GPT-4.1生成的合成叙述和一个模型推荐的治疗方案。数据集通过结构化（表格提示模板）和非结构化（自由文本叙述）两种生成流程构建。与真实患者记录和人工标注的评估对比显示，非结构化生成的平均RMSE为0.12，支持了该数据集在下游评估中的有效性。

数据集结构

数据集提供两个通过结构化和非结构化方式生成的子集：

配置名称： synthetic_structured
- 数据文件： synthetic_structured.json
- 条目数： 165
配置名称： synthetic_unstructured
- 数据文件： synthetic_unstructured.json
- 条目数： 151

每个JSON文件包含一个患者记录列表，格式如下：

patient_id: 唯一的患者标识符
patient_note: 对合成患者病史的文本描述
label: 模型生成的推荐治疗方案

数据集用途

直接用途

评估大语言模型对临床指南的遵循情况
训练或微调模型以完成结构化临床推理和推荐任务
研究合成患者生成方法

超出范围的用途

任何现实世界的临床决策或诊断用途
未经在真实临床数据上明确验证即用于生产系统

数据集创建

创建缘由

旨在为研究大语言模型如何解释和应用肿瘤学临床指南提供一个可控的、保护隐私的数据集。

源数据

患者病例是通过GPT-4.1使用模仿真实世界肿瘤学记录和指南结构的提示词合成生成的。未使用任何可识别的真实患者数据。模型输出根据格式和指南一致性标准进行了筛选和验证。

源数据生产者

合成病例由GPT-4.1在受控提示下生成，并由Microsoft Research整理。

个人及敏感信息

该数据集不包含任何个人身份信息或真实的临床数据。所有记录均为完全合成。

偏差、风险与局限性

合成数据可能反映生成模型（GPT-4.1）和提示设计的偏差。未经进一步验证，该数据集不应被用于训练或评估旨在用于真实临床部署的模型。

引用信息

BibTeX: bibtex @dataset{cancerguide_synthetic_2025, title={CancerGUIDE Synthetic Patient Data}, author={Microsoft Research}, year={2025}, note={Synthetic oncology patient dataset generated using GPT-4.1.}, url={https://aka.ms/CancerGUIDE} }

APA: Microsoft Research. (2025). CancerGUIDE Synthetic Patient Data [Dataset]. Retrieved from https://aka.ms/CancerGUIDE

搜集汇总

数据集介绍

构建方式

在肿瘤学临床决策支持系统快速发展的背景下，合成数据因其在保护患者隐私的同时提供丰富研究材料的优势而备受关注。CancerGUIDE数据集的构建采用了前沿的大语言模型技术，具体而言，其利用GPT-4.1作为核心生成引擎，严格遵循《CancerGUIDE》论文中阐述的方法论。该过程包含两种并行的生成路径：一种是基于表格化提示模板的结构化生成，旨在确保数据格式的规范性与一致性；另一种则是自由文本叙述的非结构化生成，以模拟真实临床笔记的复杂性与多样性。所有生成的患者案例均经过格式与指南一致性的过滤与验证，确保其不包含任何可识别的真实患者信息，从而在源头保障了数据的合成性与隐私安全性。

使用方法

该数据集主要服务于自然语言处理与临床信息学交叉领域的研究。其直接用途在于为大语言模型提供一个可控的基准测试平台，用于系统评估模型在肿瘤学场景下对临床指南的理解、遵循与推理能力。研究人员可利用该数据集对模型进行微调，以提升其在结构化临床推理与治疗推荐任务上的性能。同时，它也为探索合成患者数据的生成方法学提供了宝贵资源。需要明确的是，该数据集严格限定于研究用途，任何将其用于真实世界临床决策、诊断或未经真实临床数据验证便投入生产系统的行为，均被视为超出其适用范围。

背景与挑战

背景概述

随着大型语言模型在医疗健康领域的应用日益广泛，评估其在遵循临床指南方面的能力成为关键研究议题。微软研究院于2025年发布的CancerGUIDE合成患者数据集，正是针对这一需求而构建的基准资源。该数据集利用GPT-4.1生成模拟的肿瘤学患者档案与对应治疗建议，旨在为语言模型的指南遵循性与临床推理能力提供可控且隐私安全的评估平台。其核心研究问题聚焦于如何准确衡量语言模型在复杂医学场景中应用既定指南的可靠性，从而推动人工智能辅助临床决策研究的发展。

当前挑战

该数据集致力于解决肿瘤学领域语言模型指南遵循性评估的挑战，其核心在于如何构建能够真实反映临床推理复杂性且无隐私风险的基准数据。在构建过程中，研究团队面临的主要挑战包括：确保合成数据在医学合理性与逻辑一致性上逼近真实患者笔记，同时需克服生成模型本身可能存在的偏见与分布偏差。此外，设计有效的结构化与非结构化生成流程，以平衡数据的规范性与叙事多样性，亦是数据集构建中的关键难点。这些挑战共同指向合成数据在医疗评估任务中的信度与效度保障问题。

常用场景

经典使用场景

在临床人工智能研究领域，CancerGUIDE数据集为评估大型语言模型在肿瘤学指南遵循能力方面提供了基准测试平台。该数据集通过GPT-4.1生成的合成患者档案与治疗建议配对，模拟了真实临床决策环境，使研究者能够系统性地测试模型对复杂医学指南的理解与应用准确性。这种合成数据方法既保护了患者隐私，又为模型在结构化临床推理任务上的性能评估创造了可控条件。

解决学术问题

该数据集主要解决了临床自然语言处理中缺乏高质量、隐私安全的标注数据难题。通过提供标准化的合成肿瘤病例，研究者能够深入探究语言模型在医学知识推理、治疗建议生成等任务中的表现，特别是评估模型对不断更新的临床指南的遵循程度。这为开发更可靠、可解释的临床决策支持系统奠定了数据基础，推动了医学人工智能在合规性与安全性方面的学术进展。

实际应用

在实际应用中，CancerGUIDE数据集可作为医疗人工智能系统的训练与验证资源，辅助开发临床教育模拟工具或医学继续教育平台。研究人员可利用这些合成病例构建诊断推理训练模块，帮助医学生或住院医师在无风险环境中练习治疗决策。同时，制药企业也可借助此类数据初步评估药物推荐算法的逻辑一致性，为后续真实世界验证提供参考框架。

数据集最近研究