SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification)

Name: SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification)
Creator: 斯坦福大学·医学技术数字解决方案
Published: 2026-05-05 10:43:55
License: 暂无描述

arXiv2026-05-05 更新2026-05-09 收录

下载链接：

https://github.com/susom/shield_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SHIELD是由斯坦福大学医学技术数字解决方案团队构建的多样化临床笔记数据集，包含1,394条经过人工标注的临床文本，涵盖9类受保护健康信息（PHI）的10,505个标注片段。该数据集采用集合覆盖算法进行多样性采样，覆盖人口统计学和文档类型等多维度特征，并通过人机协同标注流程确保标注质量。数据集通过密码学替代技术处理原始PHI信息，既保护隐私又保留临床文本的语言结构特征，主要用于医疗记录去标识化研究，旨在解决传统基准数据集语义多样性不足、跨机构泛化性差等问题，为临床自然语言处理任务提供高质量评估基准。

SHIELD is a diverse clinical note dataset constructed by the Digital Solutions for Medical Technology Team at Stanford University. It contains 1,394 manually annotated clinical texts, including 10,505 annotated spans across 9 categories of Protected Health Information (PHI). This dataset employs set cover algorithm for diversity-driven sampling, covering multi-dimensional features such as demographics and document types, and guarantees annotation quality through a human-AI collaborative annotation pipeline. The dataset uses cryptographic substitution techniques to process the original PHI information, while safeguarding patient privacy and retaining the linguistic structural characteristics of clinical texts. It is primarily utilized for medical record de-identification research, and is designed to address the limitations of traditional benchmark datasets, such as inadequate semantic diversity and poor cross-institutional generalization, thereby providing a high-quality evaluation benchmark for clinical natural language processing tasks.

提供机构：

斯坦福大学·医学技术数字解决方案

创建时间：

2026-05-05

原始信息汇总

SHIELD 数据集概述

基本信息

数据集名称：SHIELD（A Diverse Clinical Note Dataset for Enterprise-Scale De-identification）
来源机构：斯坦福大学医学院（Stanford Medicine）
发布平台：Stanford Redivis（即将发布）
相关论文：arXiv:2605.03301

数据集规模与内容

临床笔记数量：1,394 份
PHI（受保护健康信息）标注数量：10,505 个黄金标准跨度
PHI 类别数量：9 个类别
构建方法：基于集合覆盖多样性抽样（set-cover diversity sampling），经过人工裁决

数据集特点

多样性：SHIELD 是多样化的临床笔记数据集，克服了 i2b2 2006/2014 等旧基准数据集过时且缺乏多样性的问题
独特性：使用 Fréchet Text Distance 和 Jensen-Shannon Divergence 进行的分布分析证实，SHIELD 在生物医学嵌入和词汇空间上占据与旧基准数据集不同的独特区域

数据获取方式

数据集将通过斯坦福大学医学院的 Redivis 平台公开发布，获取条件包括：

使用机构邮箱注册 Redivis 账户
签署数据使用协议

引用信息

bibtex @article{posada2025shield, title={SHIELD: A Diverse Clinical Note Dataset and Distilled Small Language Models for Enterprise-Scale De-identification}, author={Posada, Jose D. and Love, David and Datta, Somalee and Desai, Priya}, journal={arXiv preprint arXiv:2605.03301}, year={2025} }

联系方式

Jose D. Posada：jdposada@stanford.edu

搜集汇总

数据集介绍

构建方式

在临床文本的去标识化研究中，现有公共基准数据集如i2b2 2006和2014已逾十年，缺乏现代临床叙事的语义与人口学多样性。为此，SHIELD数据集基于斯坦福医学研究数据仓库STARR-OMOP构建，该仓库包含超过1580亿个临床文本词元。构建过程摒弃了传统的随机采样，转而采用集合覆盖算法，针对年龄、性别、种族、民族、笔记类型和笔记长度六个维度进行多样性优化采样，迭代选择能最大化覆盖欠表征层级的笔记。最终选定的1,394份笔记经由严格的人工参与循环注释流程：首先由大语言模型进行预注释以识别候选受保护健康信息跨度，随后由12名训练有素的人工标注者独立审阅，每份笔记由两人标注，达成100%一致性者直接纳入黄金标准，存在分歧者则由高级标注者正式裁定，最终形成包含10,505个黄金标准PHI跨度的语料库，覆盖9个类别。

特点

SHIELD数据集的核心特点在于其语义多样性与分布独特性。其多样性采样策略确保了语料在人口学和文档类型层面广泛覆盖，与仅聚焦特定表型、年代久远的旧有基准形成鲜明对比。通过基于MedCPT嵌入空间的Fr'chet文本距离分析和基于词频的Jensen-Shannon散度分析，量化证明SHIELD在生物医学嵌入空间和词汇空间中均占据与i2b2 2014及AIMI数据集截然不同的区域，其分布差异不仅体现在质心位移上，也体现在协方差形态上，表明其包含了真正不同的临床内容。该数据集包含9个PHI类别，涵盖结构化（如DATE、PHONE）和上下文依赖型（如LOCATION、HOSPITAL）实体。此外，为保护患者隐私，发布版本采用类型匹配的密码学替身替换每个PHI跨度，并应用基于患者标识符的确定性日期抖动，在保留文本自然语言结构的同时防止重识别，支持端到端的词元和跨度级评估。

使用方法

SHIELD数据集主要面向临床文本去标识化系统的基准测试与模型蒸馏研究。使用方法上，研究人员可将整个SHIELD数据集作为独立的评估集，评估各类去标识化模型在9个PHI类别上的跨度和词元级别性能。论文展示了一种知识蒸馏框架：首先在SHIELD黄金标准上评估四个大语言模型以确定最优教师模型（如Gemini 2.5 Flash），随后使用该教师模型对约13,000份未标注临床笔记进行大规模标注，生成银标准注释，最后用这些注释训练可在本地部署的小语言模型（如DeBERTa v3和BioClinical ModernBERT）。该框架使得机构无需依赖昂贵的云端API或大规模GPU集群，即可在标准工作站硬件上运行高性能的去标识化流水线。数据集和蒸馏后的DeBERTa v3模型均已公开发布，以降低临床机构安全解锁电子健康记录数据的门槛。

背景与挑战

背景概述

在临床文本的去标识化领域，现有基准数据集如i2b2 2006和i2b2 2014虽曾推动技术发展，但已逾十年，其语义与人口统计学多样性远不足以反映现代临床叙事的复杂性。由斯坦福大学医学院Jose D. Posada及其团队于2026年创建的SHIELD（Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification）数据集，正是为突破这一瓶颈而生。该数据集基于斯坦福医学研究数据仓库STARR-OMOP，运用集合覆盖算法对1,394份临床笔记进行多样性采样，并经人工与大型语言模型联合标注，最终获得涵盖9类受保护健康信息的10,505个金标准跨度。SHIELD的发布为临床去标识化研究提供了兼具地理、人口与语义多样性的现代基准，其分布性差异分析（如Fréchet文本距离）证实该数据集在嵌入空间与词汇层面均显著区别于传统基准，对推动跨机构、跨模态的隐私保护技术具有里程碑式的意义。

当前挑战

SHIELD数据集所应对的核心领域挑战在于临床文本去标识化的泛化鸿沟与成本困境。一方面，现有模型在跨机构部署时性能急剧下降，如Yang等人发现深度学习的F1值从0.96跌至0.86，且机构特定实体（如医院名称）的迁移极不可靠；另一方面，大型语言模型虽展现出卓越的零样本提取能力，但将其用于企业级场景时，高昂的计算成本与严格的数据治理要求（禁止PHI传输至云API）构成重大阻碍。在数据集构建过程中，团队面临多重挑战：需通过集合覆盖算法从1580亿token的仓库中优化采样以覆盖人口与文档类型的所有分层，同时设计人工与LLM协同的标注流程，确保9个PHI类别（如年龄、日期、医生）的标注一致性并于分歧处进行仲裁。此外，为了在保护隐私的前提下保留文本结构，团队开发了加密替代策略（如患者特定日期抖动与哈希假名化），这要求在保持文本自然性的同时防止重识别，技术实现极为精细。

常用场景

经典使用场景

在临床文本去标识化研究领域，SHIELD数据集作为现代基准测试的典范，其经典使用场景聚焦于评估和比较不同去标识化模型对受保护健康信息的识别与消除能力。研究者利用该数据集中包含的1,394份临床笔记和10,505个黄金标准PHI标注，横跨年龄、日期、医生、医院、身份证号、地理位置、患者姓名、电话号码及网络信息等九大类别，对模型在零样本或微调条件下的实体抽取精度与召回率进行系统评测。该场景尤为注重评估模型在处理具有语义多样性的现代临床叙事文本时的鲁棒性，例如在手术报告、护理笔记和患者指导等丰富文档类型中识别PHI，从而为临床自然语言处理模型提供了更具挑战性和代表性的检验平台。

衍生相关工作

SHIELD数据集的发布催生了一系列极具影响力的衍生研究工作，深刻重塑了临床自然语言处理领域的技术路线。其中最引人注目的贡献是知识蒸馏框架的建立，研究者以大语言模型（如Gemini 2.5 Flash）为教师，将其实体抽取的高级推理能力高效迁移至可本地部署的小语言模型（DeBERTa v3和BioClinical ModernBERT）中，使得模型在匹配教师大部分结构化PHI类别性能的同时，实现了约五个数量级的推理成本降低。此外，该工作推动了跨数据集泛化评估范式的深入发展，系统揭示了通用结构化类别（如日期、身份证号）与机构特有实体（如医院名称）之间不对称的迁移特性，为后续研究提出将宽覆盖模型与针对高容量、半结构化笔记类型的特化模型相结合的混合部署策略奠定了重要基础。

数据集最近研究