synthetic-crf-train

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/NLP-FBK/synthetic-crf-train

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自`NLP-FBK/e3c-crf-english`和`NLP-FBK/e3c-crf-italian`，用于CL4Health2026的CRF:filling Shared Task。数据集包含71个英语和80个意大利语患者的合成病例报告表，每个样本包含以下内容：- `document_id`：来自原始E3C数据集的患者/临床记录标识符；- `clinical_note`：记录患者临床病史的笔记；- `annotations`：带有`ground_truth`标签的CRF项目；- `crf_type`：定义CRF中项目的医疗状况标识符。具有相同`crf_type`的患者具有完全相同的CRF项目。更多信息请访问https://sites.google.com/fbk.eu/crf。

This dataset is derived from `NLP-FBK/e3c-crf-english` and `NLP-FBK/e3c-crf-italian`, and is intended for the CRF: Filling Shared Task of CL4Health2026. It contains synthetic case report forms (CRFs) from 71 English and 80 Italian patients. Each sample includes the following components: - `document_id`: Patient/clinical record identifier from the original E3C dataset; - `clinical_note`: Clinical notes documenting the patient's medical history; - `annotations`: CRF items with `ground_truth` labels; - `crf_type`: The medical condition identifier that defines the items in the CRF. Patients with the same `crf_type` have exactly identical CRF items. For more information, please visit https://sites.google.com/fbk.eu/crf.

创建时间：

2025-12-02

原始信息汇总

数据集概述

数据集基本信息

数据集名称: synthetic-crf-train
来源: 由 NLP-FBK/e3c-crf-english 和 NLP-FBK/e3c-crf-italian 派生而来，专为 CL4Health2026 的 CRF:filling 共享任务构建。
构建方法: 基于论文《Converting Annotated Clinical Cases into Structured Case Report Forms》中描述的方法构建。

数据集内容与结构

数据格式: 每个样本包含以下字段：
- document_id: 患者/临床记录标识符，源自原始的 E3C 数据集。
- clinical_note: 记录患者临床病史的文本。
- annotations: 包含 CRF 项目及其 ground_truth 标签的列表。
  - item: CRF 项目名称。
  - ground_truth: 对应的真实标签。
- crf_type: 医疗状况标识符，定义了 CRF 中的项目。具有相同 crf_type 的患者拥有完全相同的 CRF 项目。
数据规模: 共发布了 71 个（英语）和 80 个（意大利语）患有不同医疗状况患者的合成病例报告表。

数据集配置与划分

默认配置: default
数据划分:
- 意大利语 (it):
  - 样本数量: 80
  - 文件大小: 412,610 字节
  - 文件路径模式: data/it-*
- 英语 (en):
  - 样本数量: 71
  - 文件大小: 360,843 字节
  - 文件路径模式: data/en-*
总体统计:
- 下载大小: 234,589 字节
- 数据集总大小: 773,453 字节

相关资源

原始数据集: 对于与共享任务无关的信息，请参考原始数据集 NLP-FBK/e3c-crf-english 和 NLP-FBK/e3c-crf-italian。
任务网站: 更多信息请访问 https://sites.google.com/fbk.eu/crf。
引用文献:
- Ferrazzi, P., Lavelli, A., & Magnini, B. (2025). Converting Annotated Clinical Cases into Structured Case Report Forms. In Proceedings of the 24th Workshop on Biomedical Language Processing (pp. 307–318). Association for Computational Linguistics.

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，结构化病例报告表（CRF）的自动生成是提升医疗数据利用效率的关键环节。synthetic-crf-train数据集源自E3C临床语料库的英文与意大利文子集，专为CL4Health2026会议的CRF填充共享任务而构建。其构建过程遵循学术文献中描述的方法，通过系统化转换已标注的临床病例记录，将非结构化的临床笔记转化为结构化的病例报告表条目。该数据集涵盖了71名英语患者与80名意大利语患者的合成CRF，每条数据均包含原始临床笔记、对应的CRF项目及其真实标签，并依据医疗状况类型进行统一归类，确保了数据在跨语言与跨病种条件下的一致性与可比性。

特点

该数据集的核心特点体现在其高度结构化的多语言临床数据组织上。每条记录均通过document_id与原始E3C数据集关联，保持了数据溯源的可信度。临床笔记与CRF项目的配对呈现，为模型学习从自由文本到结构化信息的映射提供了直接监督信号。数据集按crf_type对医疗状况进行分类，使得相同类型的患者拥有完全一致的CRF项目模板，这有助于模型专注于内容填充而非结构差异。同时，英语与意大利语的双语平行设计，为跨语言临床信息提取研究提供了难得的实验资源，支持语言通用性与特定性的对比探索。

使用方法

研究人员可利用该数据集开发与评估临床病例报告表的自动填充系统。典型工作流程始于数据加载，通过指定语言配置（如'en'或'it'）获取相应的训练样本。模型训练时，应以clinical_note作为输入文本，以annotations中的item-ground_truth配对作为预测目标，学习从临床叙述中提取并归类关键信息。crf_type字段可用于按医疗条件进行数据分组或条件化建模。在模型评估阶段，可通过对比预测标签与ground_truth来计算各项性能指标。此外，该数据集可直接服务于CL4Health2026共享任务，亦可用于迁移学习研究，探索在资源较少语言上的临床信息提取能力。

背景与挑战

背景概述

在临床信息学领域，如何将非结构化的临床笔记高效转化为结构化的病例报告表（CRF）一直是关键挑战。synthetic-crf-train数据集由FBK-NLP研究团队于2025年构建，旨在支持CL4Health2026研讨会中的CRF填充共享任务。该数据集基于E3C临床语料库，通过自动化方法将英文和意大利文的临床笔记转换为标准化的CRF项目，覆盖多种医疗状况。其核心研究问题聚焦于临床文本的结构化信息抽取，为医疗自然语言处理任务提供了重要的基准资源，推动了临床数据标准化和自动化处理的发展。

当前挑战

该数据集主要应对临床信息抽取中非结构化文本到结构化表格的转换难题，具体挑战包括医疗实体和关系的精确识别、跨语言临床术语的一致性对齐，以及不同医疗条件下CRF项目的泛化能力。在构建过程中，研究人员面临原始临床笔记的语义歧义消除、多语言标注规范的统一，以及合成数据与真实临床场景之间的分布差异等挑战，这些因素共同影响了模型在实际医疗环境中的可靠性和适用性。

常用场景

经典使用场景

在临床自然语言处理领域，synthetic-crf-train数据集为结构化病例报告表单的自动填充任务提供了标准化的评估基准。该数据集通过将临床笔记中的非结构化文本与预定义的CRF项目进行关联，模拟了从自由文本中提取关键医疗信息的经典场景。研究人员利用该数据集训练和验证信息抽取模型，以识别患者临床历史中的特定医疗条件，从而支持临床决策的自动化流程。

衍生相关工作

基于该数据集衍生的经典工作主要集中在临床信息抽取与结构化转换模型的设计上。例如，相关研究探索了基于序列标注和深度学习的方法，以优化从临床笔记到CRF项目的映射准确性。这些工作进一步推动了多语言临床文本处理技术的发展，并为后续的共享任务如CL4Health2026中的CRF填充挑战提供了基础，促进了学术界在医疗自然语言处理领域的协作与创新。

数据集最近研究