Clinical Extraction Benchmark

github2026-05-04 更新2026-05-06 收录

下载链接：

https://github.com/CleansheetLLC/clinical-extraction-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

一个开放的基准，用于评估从临床文本和语音中提取结构化FHIR R4资源的临床NLP管道。涵盖完整链条：音频→转录→结构化FHIR数据。

An open benchmark for evaluating clinical natural language processing (NLP) pipelines that extract structured FHIR R4 resources from clinical text and speech. It covers the complete end-to-end workflow: audio → transcription → structured FHIR data.

创建时间：

2026-05-03

原始信息汇总

临床提取基准数据集（Clinical Extraction Benchmark）

数据集概述

该数据集是一个用于评估临床NLP管道的开放基准，能够从临床文本和语音中提取结构化的FHIR R4资源。覆盖完整的处理链条：音频 → 转录文本 → 结构化FHIR数据。

数据集结构

clinical-extraction-benchmark/ ├── transcripts/ # 已验证的临床文本（提取输入） │ ├── en/ # 英语 │ ├── de/ # 德语 │ └── fr/ # 法语 ├── annotations/ # 预期的FHIR R4 Bundle（真实标注输出） │ ├── en/ │ ├── de/ │ └── fr/ ├── audio/ # 音频文件（如可用） │ ├── en/ │ ├── de/ │ └── fr/ ├── schemas/ # JSON Schema验证 ├── tools/ # 评分和评估脚本 └── docs/ # 方法论、标注指南、数据来源

数据层次

第一层：转录文本

临床文本来源包括：

来源	语言	类型	许可	状态
本仓库原创	英语、德语	脚本化合成临床场景	CC BY-SA 4.0	进行中
MultiMed	英语、德语、法语、越南语、中文	真实临床音频+转录文本	研究许可	参考（不重新分发）
n2c2	英语	去标识化临床笔记	需DUA	参考（不重新分发）

外部数据集的转录文本仅提供引用，不重新分发。需按照各自许可协议获取原始数据，本仓库提供基于这些转录文本的FHIR提取标注。

第二层：FHIR R4标注（本数据集创新贡献）

每个转录文本在 annotations/ 目录下对应一个经过验证的FHIR R4 Bundle，包含预期提取输出：

Condition（ICD-10-CM / SNOMED-CT）
MedicationRequest / MedicationStatement（RxNorm）
Observation（LOINC）——生命体征、实验室结果
AllergyIntolerance（RxNorm / SNOMED-CT）
Procedure（CPT / SNOMED-CT）
ServiceRequest（实验室检查、影像检查、转诊）
FamilyMemberHistory

第三层：音频（如可用）

原创脚本化场景包含录制的音频，外部数据集音频仅提供引用，不重新分发。

标注格式

每个标注是有效的FHIR R4 Bundle（JSON格式），可直接提交至FHIR服务器。特点包括：

有效的资源类型且包含必需字段
编码值使用标准术语体系（ICD-10-CM、RxNorm、LOINC、SNOMED-CT）
资源引用共同的Patient和Encounter
Bundle类型为 collection（作为真实标注，而非提交）

具体验证规则见 schemas/ 目录的JSON Schema，标注方法论见 docs/annotation-guidelines.md。

评估方法

评分工具

tools/ 目录提供脚本用于比较管道输出与真实标注：

单个提取比较：python tools/score.py annotations/en/en-soap-001.json output.json
批量评分：python tools/batch_score.py results/ --lang en

评估指标

指标	衡量内容
实体F1	按资源类型计算的精确率/召回率/F1（管道是否找到正确的诊断、药物等？）
编码准确率	正确识别实体中，管道是否分配了正确的ICD-10/RxNorm/LOINC编码？
属性完整性	正确识别实体中，是否提取了属性（剂量、严重程度、状态）？
Bundle有效性	输出是否为有效的FHIR R4 Bundle？

场景覆盖范围

转录文本按临床工作流程组织：

工作流程	标签	描述
通用	general	非结构化临床会诊
SOAP	soap	主观/客观/评估/计划格式
H&P	hp	病史和体格检查
急诊	emergency	急诊科会诊，高急度
SAMPLER+S	samplers	院前/急诊（含德语Schmerz变体）
初诊	intake	新患者初诊
随访	followup	复诊
出院	discharge	出院小结
专科	cardiology, neurology等	专科特定会诊

引用

若在研究中使用该基准，请引用：

@misc{clinical-extraction-benchmark, title={Clinical Extraction Benchmark: FHIR R4 Ground Truth for Clinical NLP Evaluation}, author={Cleansheet LLC}, year={2026}, url={https://github.com/cleansheet-llc/clinical-extraction-benchmark} }

许可

原创内容（转录文本、标注、音频、工具）：CC BY-SA 4.0
外部数据集：仅做引用，遵循其各自许可协议

搜集汇总

数据集介绍

构建方式

该数据集通过构建多语言临床转录文本与对应的人工校验FHIR R4 Bundle标注对，填补了现有临床NLP评估中缺乏标准化结构化提取基准的空白。转录文本源自合成脚本、MultiMed及n2c2等公开数据集，而FHIR R4标注则是本数据集的核心创新，由独立审核员对每条转录进行人工校验，确保包含Condition、MedicationRequest、Observation等资源类型，并采用ICD-10-CM、RxNorm、LOINC等标准术语体系编码，所有标注均以有效的FHIR R4 Bundle JSON格式存储。

特点

该数据集的核心特色在于其三层递进式架构：第一层为来自多种来源的多语言临床转录文本（涵盖英语、德语、法语），确保文本多样性；第二层为人工校验的FHIR R4 Bundle作为结构化提取金标准，覆盖SOAP、急诊、出院摘要等多种临床工作流场景；第三层则提供可选音频文件，支持对完整音频到结构化数据管线的评估。此外，数据集提供详细的评分工具和指标，如实体F1、代码准确性、属性完整性和Bundle有效性，能够系统评估任何提取管线在统一标准下的表现。

使用方法

使用该数据集时，用户可首先从transcripts目录获取指定语言的临床转录文本作为输入，利用自有或开源NLP管线将其转换为结构化FHIR R4 Bundle。随后，通过tools/目录下的score.py或batch_score.py脚本，将管线输出与annotations目录中对应的金标准Bundle进行逐字段比较，自动计算实体F1、代码准确性、属性完整性及Bundle有效性等多维度评价指标。用户也可根据需求选择包含音频文件的场景，构建端到端的语音至结构化数据评估流程。

背景与挑战

背景概述

临床文本与语音的结构化信息提取是医疗人工智能领域的关键任务，旨在将非结构化的临床记录转化为标准化的可计算数据。然而，现有医疗语音数据集如MultiMed、n2c2等虽提供音频与转录文本，却缺乏经人工验证的结构化提取金标准；传统临床命名实体识别数据集虽标注实体，却未能生成符合FHIR R4标准的资源。为解决这一空白，Cleansheet LLC研究团队于2026年创建了Clinical Extraction Benchmark（临床提取基准）。该基准创新性地提供了从临床转录文本到经过验证的FHIR R4 Bundle的完整标注，覆盖英语、德语、法语，涵盖SOAP、病史体检、急诊等九类临床工作流，为评估端到端的临床NLP管线（音频→转录→结构化FHIR数据）提供了首个可复现的标准化基准，对推动临床自然语言处理研究的可重复性与实践应用具有重要意义。

当前挑战

该基准面临的挑战集中于两个层面。在领域问题层面，临床文本的复杂性与歧义性使得信息提取极为困难：同一临床概念在不同语境下可能对应不同的FHIR资源类型与编码体系（如ICD-10-CM、RxNorm、LOINC），需要精准区分病症、药物、观察、过敏等类别；同时，临床记录中的缩写、拼写错误、口语化表达以及多语言混杂进一步增加了提取难度。在基准构建层面，主要挑战包括：一是需要确保所有转录文本为合成数据以避免隐私问题，同时保持临床场景的真实性与多样性；二是FHIR标注需经独立双重验证，但临床术语的标准化编码需要专业医学知识，标注成本高昂；三是跨语言标注的一致性难以保证，尤其在德语与法语中需适配各自的临床编码系统与表达习惯。

常用场景

经典使用场景

在临床自然语言处理与医学信息学交叉领域中，Clinical Extraction Benchmark数据集被广泛用于评估从非结构化临床文本及语音转录中自动提取结构化FHIR R4资源的能力。研究者通常将转录文本或音频输入至各类型的信息抽取管线（包括基于规则、传统机器学习或大语言模型的方法），并利用数据集提供的人力验证的FHIR Bundle金标准进行评测。其经典任务覆盖了条件识别（ICD-10-CM/SNOMED-CT）、用药抽提（RxNorm）、检验结果捕获（LOINC）、过敏记录、手术编码及家族病史等核心临床要素，从而定量衡量实体级F1值、术语代码准确率、属性完整性与资源合规性四项关键维度。

衍生相关工作

作为一座桥梁性资源，Clinical Extraction Benchmark已催生了一系列纵深研究：一方面，多语言临床大语言模型（如基于LLaMA的德语临床微调版本）将其作为标准评估集，报告归因式抽取与代码推荐任务的进步；另一方面，基于规则与基于学习混合型管线的对比分析借助该基准揭示了开放集下术语规范化瓶颈，推动了约束解码与检索增强生成（RAG）策略在临床抽提中的应用。此外，社区贡献机制鼓励开发者在issue记录中提交新语言、新场景（如疼痛评估量表SAMPLER+S）的转录与FHIR标注，从而逐步扩展至法语、越南语与中文环境，使得工作成果从单一基准逐渐演变为多语种临床FHIR抽取的共建生态。

数据集最近研究