Clinical Extraction Benchmark
收藏临床提取基准数据集(Clinical Extraction Benchmark)
数据集概述
该数据集是一个用于评估临床NLP管道的开放基准,能够从临床文本和语音中提取结构化的FHIR R4资源。覆盖完整的处理链条:音频 → 转录文本 → 结构化FHIR数据。
数据集结构
clinical-extraction-benchmark/ ├── transcripts/ # 已验证的临床文本(提取输入) │ ├── en/ # 英语 │ ├── de/ # 德语 │ └── fr/ # 法语 ├── annotations/ # 预期的FHIR R4 Bundle(真实标注输出) │ ├── en/ │ ├── de/ │ └── fr/ ├── audio/ # 音频文件(如可用) │ ├── en/ │ ├── de/ │ └── fr/ ├── schemas/ # JSON Schema验证 ├── tools/ # 评分和评估脚本 └── docs/ # 方法论、标注指南、数据来源
数据层次
第一层:转录文本
临床文本来源包括:
| 来源 | 语言 | 类型 | 许可 | 状态 |
|---|---|---|---|---|
| 本仓库原创 | 英语、德语 | 脚本化合成临床场景 | CC BY-SA 4.0 | 进行中 |
| MultiMed | 英语、德语、法语、越南语、中文 | 真实临床音频+转录文本 | 研究许可 | 参考(不重新分发) |
| n2c2 | 英语 | 去标识化临床笔记 | 需DUA | 参考(不重新分发) |
外部数据集的转录文本仅提供引用,不重新分发。需按照各自许可协议获取原始数据,本仓库提供基于这些转录文本的FHIR提取标注。
第二层:FHIR R4标注(本数据集创新贡献)
每个转录文本在 annotations/ 目录下对应一个经过验证的FHIR R4 Bundle,包含预期提取输出:
- Condition(ICD-10-CM / SNOMED-CT)
- MedicationRequest / MedicationStatement(RxNorm)
- Observation(LOINC)——生命体征、实验室结果
- AllergyIntolerance(RxNorm / SNOMED-CT)
- Procedure(CPT / SNOMED-CT)
- ServiceRequest(实验室检查、影像检查、转诊)
- FamilyMemberHistory
第三层:音频(如可用)
原创脚本化场景包含录制的音频,外部数据集音频仅提供引用,不重新分发。
标注格式
每个标注是有效的FHIR R4 Bundle(JSON格式),可直接提交至FHIR服务器。特点包括:
- 有效的资源类型且包含必需字段
- 编码值使用标准术语体系(ICD-10-CM、RxNorm、LOINC、SNOMED-CT)
- 资源引用共同的Patient和Encounter
- Bundle类型为
collection(作为真实标注,而非提交)
具体验证规则见 schemas/ 目录的JSON Schema,标注方法论见 docs/annotation-guidelines.md。
评估方法
评分工具
tools/ 目录提供脚本用于比较管道输出与真实标注:
- 单个提取比较:
python tools/score.py annotations/en/en-soap-001.json output.json - 批量评分:
python tools/batch_score.py results/ --lang en
评估指标
| 指标 | 衡量内容 |
|---|---|
| 实体F1 | 按资源类型计算的精确率/召回率/F1(管道是否找到正确的诊断、药物等?) |
| 编码准确率 | 正确识别实体中,管道是否分配了正确的ICD-10/RxNorm/LOINC编码? |
| 属性完整性 | 正确识别实体中,是否提取了属性(剂量、严重程度、状态)? |
| Bundle有效性 | 输出是否为有效的FHIR R4 Bundle? |
场景覆盖范围
转录文本按临床工作流程组织:
| 工作流程 | 标签 | 描述 |
|---|---|---|
| 通用 | general | 非结构化临床会诊 |
| SOAP | soap | 主观/客观/评估/计划格式 |
| H&P | hp | 病史和体格检查 |
| 急诊 | emergency | 急诊科会诊,高急度 |
| SAMPLER+S | samplers | 院前/急诊(含德语Schmerz变体) |
| 初诊 | intake | 新患者初诊 |
| 随访 | followup | 复诊 |
| 出院 | discharge | 出院小结 |
| 专科 | cardiology, neurology等 | 专科特定会诊 |
引用
若在研究中使用该基准,请引用:
@misc{clinical-extraction-benchmark, title={Clinical Extraction Benchmark: FHIR R4 Ground Truth for Clinical NLP Evaluation}, author={Cleansheet LLC}, year={2026}, url={https://github.com/cleansheet-llc/clinical-extraction-benchmark} }
许可
- 原创内容(转录文本、标注、音频、工具):CC BY-SA 4.0
- 外部数据集:仅做引用,遵循其各自许可协议




