SGB-crf-italian

Name: SGB-crf-italian
Creator: 布鲁诺·凯斯勒基金会; 帕多瓦大学; 法特贝内弗拉泰利医院·急诊医学科; 米兰大学
Published: 2026-02-26 22:49:11
License: 暂无描述

arXiv2026-02-26 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/NLP-FBK/SGB-crf-italian

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由布鲁诺·凯斯勒基金会等机构联合构建，包含290份来自意大利急诊科的临床笔记，每条笔记标注了134项CRF字段。数据涵盖7种临床文档类型，平均每条笔记标注5.7个项目，主要记录病史采集和临床检查信息。数据集通过严格匿名化处理，采用专业临床医生标注，旨在推动基于大语言模型的病例报告表自动填充研究，解决临床信息结构化提取的难题。

This dataset was jointly constructed by the Bruno Kessler Foundation and other partner institutions. It contains 290 clinical notes from Italian emergency departments, with each note annotated with 134 CRF (Case Report Form) fields. The dataset covers 7 types of clinical documents, with an average of 5.7 annotated items per note, and primarily records medical history collection and clinical examination information. The dataset has undergone strict anonymization processing and was annotated by professional clinicians, aiming to promote research on automatic Case Report Form filling based on Large Language Models (LLMs) and address the challenges in structured extraction of clinical information.

提供机构：

布鲁诺·凯斯勒基金会; 帕多瓦大学; 法特贝内弗拉泰利医院·急诊医学科; 米兰大学

创建时间：

2026-02-26

原始信息汇总

数据集概述

基本描述

该数据集包含用于自动填充病例报告表（CRF）的意大利语医疗文本数据。数据源自意大利急诊科收治的呼吸困难患者，旨在研究如何从患者临床病史中自动填充CRF中的标准化医疗项目。

数据集结构

数据集包含两个配置（config）：

development配置
- 数据量：下载大小 469,530 字节，数据集大小 11,368,696 字节。
- 数据划分（splits）：
  - history: 4,140 个样本
  - clinical_exam: 2,160 个样本
  - diagresults: 270 个样本
  - labresults: 2,160 个样本
  - imagresults: 900 个样本
  - treatment: 630 个样本
  - diagnosis: 1,800 个样本
test配置
- 数据量：下载大小 953,393 字节，数据集大小 25,770,251 字节。
- 数据划分（splits）：
  - history: 9,200 个样本
  - clinical_exam: 4,800 个样本
  - diagresults: 600 个样本
  - labresults: 4,800 个样本
  - imagresults: 2,000 个样本
  - treatment: 1,400 个样本
  - diagnosis: 4,000 个样本

数据特征

每个数据样本包含以下字段：

document_id: 唯一的患者标识符。
item: 需要填充的CRF项目。
ground_truth: 对应item的填充真实值。
group_id: clinical_note所属的文档类型。
clinical_note: 患者的临床病史。

数据组织说明

每个样本对应一个患者的一个CRF项目。每位患者对应CRF中的134个项目，因此有134个样本。
项目被分为7个组，每个组对应一个数据划分（split）。
该数据集最初用于CL4Health@LREC2026会议的“CRF:filling”共享任务。共享任务版本的数据集（包含训练集、开发集和测试集）存放于以下地址：
- https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-train
- https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-development
- https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-test

来源与引用

数据出自论文《Toward Automatic Filling of Case Report Forms: A Case Study on Data from an Italian Emergency Department》，作者G. Kaczzmarek等人，发表于第11届语言与技术会议：人类语言技术作为计算机科学、语言学和低资源语言的挑战，2025年，波兰波兹南。

搜集汇总

数据集介绍

构建方式

在临床信息提取领域，构建高质量标注数据集是推动自动化病例报告表填充技术发展的基石。SGB-crf-italian数据集源自意大利都灵圣乔瓦尼·博斯科医院急诊科，其构建过程严谨而系统。研究团队收集了2021年至2023年间的290份急诊护理记录，涵盖问诊报告、分诊记录、护理笔记等七类临床文档。通过与临床医生紧密合作，设计了一个包含134个项目的结构化病例报告表模板，覆盖病史采集、临床检查、诊断结果等七个主题组。标注工作由专业临床人员使用Label Studio软件完成，针对每份笔记，标注员识别文本片段并将其映射至CRF项目的具体取值，同时严格遵循隐私协议，对所有患者标识信息进行了匿名化处理，确保了数据的合规性与安全性。

特点

该数据集显著体现了真实世界临床文档的复杂性与稀疏性特征。其标注分布高度不均衡，平均每份笔记仅标注5.7个项目，绝大多数CRF字段因信息缺失而被赋值为“未知”，这精准反映了急诊场景中信息记录的不完整性。数据在项目组层面呈现显著差异，临床检查和病史采集类标注占据主导，而实验室结果、影像学结果等则相对稀少，这与急诊科的临床实践模式高度吻合。此外，数据集中存在标注冗余与偶尔的矛盾现象，这并非错误，而是患者病情随时间演变的真实写照，为模型处理动态临床信息提供了宝贵的学习素材。数据集语言为意大利语，而CRF项目为英语，天然构成了一个跨语言理解任务，增加了技术挑战的维度。

使用方法

该数据集为核心任务——从意大利语临床笔记中自动填充134项CRF——提供了标准化的评估基准。使用方法遵循零样本实验框架，模型需针对每个CRF项目独立处理输入的临床笔记，并从预定义的有限值集中选择输出，当笔记中缺乏证据时，正确输出应为“未知”。评估采用微观F1和宏观F1相结合的策略，微观F1反映整体填充准确率，而宏观F1则能更均衡地衡量模型在各类取值上的表现，尤其关注那些临床信息丰富但出现频率较低的取值。研究人员已利用该数据集进行了可行性试点实验，展示了大型语言模型在此任务上的应用潜力与局限，为后续系统化、大规模的模型开发与比较研究奠定了坚实基础。

背景与挑战

背景概述

在临床研究领域，病例报告表作为标准化收集患者数据的核心工具，其电子化与自动化填充是提升医疗数据互操作性与研究效率的关键方向。由Fondazione Bruno Kessler等机构的研究团队于2026年创建的SGB-crf-italian数据集，聚焦于从意大利急诊科临床笔记中自动填充病例报告表这一核心研究问题。该数据集包含290份来自都灵San Giovanni Bosco医院的匿名临床笔记，并标注了涵盖134个项目的病例报告表，旨在为大型语言模型在临床信息抽取任务中的训练与评估提供稀缺的标注资源。其发布填补了真实医院场景下公开数据集的空白，为推进临床自然语言处理技术的应用奠定了重要基础。

当前挑战

该数据集致力于解决从非结构化临床叙事中自动抽取结构化信息以填充病例报告表的领域挑战，其核心在于克服临床语言的复杂性、语境依赖性及信息稀疏性。构建过程中面临的挑战包括：确保患者数据的严格匿名化与隐私保护，这限制了跨笔记的患者级纵向数据关联；临床笔记与病例报告表项目之间存在显著的标注稀疏性与不均衡分布，多数项目在笔记中缺乏对应信息；标注过程中出现的冗余与偶尔冲突反映了临床文档随时间演变的真实特性，增加了数据清洗与建模的复杂度；此外，数据集仅涵盖意大利语临床笔记，而病例报告表项目为英语，这引入了跨语言理解的任务难度。

常用场景

经典使用场景

在临床信息提取领域，SGB-crf-italian数据集为自动填充病例报告表任务提供了关键资源。该数据集包含来自意大利急诊科的临床笔记，并标注了134个预定义CRF项目，其经典使用场景在于评估大型语言模型在零样本设置下从非结构化临床叙述中提取结构化信息的能力。通过将意大利语笔记与英语CRF项目对齐，该数据集支持跨语言理解任务，为研究模型在真实医疗环境中的信息提取性能设立了基准。

解决学术问题

该数据集主要解决了临床自然语言处理中标注数据稀缺的学术难题。传统CRF填充研究常受限于私有或合成数据，难以反映真实临床文档的异构性与稀疏性。SGB-crf-italian通过提供公开的、源自实际急诊环境的标注数据，使研究者能够系统评估模型对临床概念（如病史采集、检查结果）的识别精度，并量化模型在应对信息缺失（即“未知”标签）时的表现偏差，从而推动临床信息提取方法向更高鲁棒性与实用性发展。

衍生相关工作

该数据集的发布催生了多项围绕临床CRF自动填充的衍生研究。例如，Ferrazzi等人（2025）的工作探索了如何将标注临床案例转化为结构化CRF，与本数据集形成方法学互补。同时，Gutiérrez-Sacristán等人（2024）开发的儿科多中心自动CRF填充管道，虽聚焦不同临床环境，但共享了从电子健康记录中提取结构化变量的核心目标。这些研究共同推进了临床自然语言处理技术从基于关键词匹配的传统方法向基于大型语言模型的上下文感知范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集