dyspnea-crf-train

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-train

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含CL4Health2026会议CRF填充共享任务的标注训练表格。临床笔记收集自意大利都灵San Giovanni Bosco医院，经过匿名化和标注处理。数据集包含两个语言分片：英语（en）和意大利语（it），共10个样本。每个样本包含：临床笔记标识符（document_id）、患者临床病史记录（clinical_note）以及带有真实标签的CRF项目标注（annotations）。

创建时间：

2025-12-10

原始信息汇总

数据集概述

数据集基本信息

数据集名称：dyspnea-crf-train
来源：意大利都灵San Giovanni Bosco (SGB)医院收集、匿名化并标注的临床记录
主要用途：为CL4Health2026会议的CRF填充共享任务提供训练标注数据

数据集内容与结构

总数据量：20个示例（共两个语言分片）
数据格式：每个示例包含三个字段
- document_id：临床记录标识符（字符串类型）
- clinical_note：记录患者临床病史的文本（字符串类型）
- annotations：CRF项目及其ground_truth标签的列表（列表类型，内含ground_truth和item两个字符串字段）

数据分片详情

意大利语分片 (it)
- 示例数量：10
- 文件大小：62,546字节
英语分片 (en)
- 示例数量：10
- 文件大小：63,577字节

技术信息

总数据集大小：126,123字节
下载大小：560,936字节
配置文件：默认配置包含两个分片的数据文件路径
- 意大利语分片路径：data/it-*
- 英语分片路径：data/en-*

相关资源

更多信息请访问：https://sites.google.com/fbk.eu/crf

搜集汇总

数据集介绍

构建方式

在临床信息抽取领域，dyspnea-crf-train数据集的构建体现了严谨的医学数据采集与标注流程。该数据集源自意大利都灵San Giovanni Bosco医院，通过收集真实的临床记录，并经过严格的匿名化处理以保护患者隐私。随后，专业标注人员依据结构化病例报告表（CRF）的规范，对每份临床笔记中的关键项目进行了精准标注，形成了包含文档标识、原始文本及标注结果的数据样本。整个构建过程确保了数据在医学研究和自然语言处理任务中的可靠性与实用性。

特点

dyspnea-crf-train数据集展现出多语言与结构化的鲜明特点。数据集包含英语和意大利语两个独立的分支，各由10个样本组成，支持跨语言临床信息处理研究。每个样本均涵盖文档ID、临床笔记原文以及标注信息，其中标注部分明确区分了CRF项目与其对应的真实标签，为模型训练提供了清晰的监督信号。这种设计不仅促进了呼吸急促相关临床实体的抽取，也为医疗自然语言处理任务提供了高质量的基准资源。

使用方法

该数据集主要用于训练临床信息抽取模型，特别是在病例报告表填充任务中。研究人员可分别加载英语或意大利语分支，利用临床笔记文本作为输入，以标注信息作为训练目标，构建命名实体识别或关系抽取模型。数据集可直接通过HuggingFace平台获取，并兼容常见的机器学习框架。在使用过程中，建议遵循原项目网站提供的指南，以确保标注标准的正确理解与应用，从而有效支持CL4Health2026共享任务的模型开发与评估。

背景与挑战

背景概述

在临床自然语言处理领域，结构化病历数据的自动提取是提升医疗信息管理效率的关键。dyspnea-crf-train数据集由意大利都灵San Giovanni Bosco医院于CL4Health2026会议期间创建，旨在支持CRF填充共享任务。该数据集聚焦于呼吸困难症状的临床记录，通过双语（英语和意大利语）标注，为研究者提供了真实医院环境下的匿名化病历文本及其对应的病例报告表项目。这一资源不仅促进了跨语言临床信息提取技术的发展，也为医疗人工智能模型在有限数据场景下的训练与评估提供了重要基础。

当前挑战

该数据集致力于解决临床病例报告表自动填充的挑战，其核心问题在于从非结构化的临床笔记中准确识别并结构化关键医疗信息，如症状、诊断和治疗细节。构建过程中的挑战包括：临床文本的复杂语言特性，如专业术语、缩写和语法变异；双语标注需要确保跨语言语义一致性；数据匿名化要求在不损失临床意义的前提下保护患者隐私；以及小规模样本（仅10例）对模型泛化能力构成的限制。这些因素共同增加了开发鲁棒信息提取系统的难度。

常用场景

经典使用场景

在临床自然语言处理领域，dyspnea-crf-train数据集主要用于支持呼吸困难病例报告表（CRF）的自动填充任务。该数据集通过提供英语和意大利语两种语言的临床笔记及其标注，为研究者构建和评估命名实体识别与信息提取模型提供了关键资源。其经典应用场景涉及从非结构化临床文本中识别并提取与呼吸困难相关的结构化信息，如症状描述、病史记录等，从而辅助临床决策支持系统的开发。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要包括基于深度学习的多语言临床信息提取模型、跨语言迁移学习框架以及端到端的CRF自动填充系统。这些工作不仅推动了CL4Health等国际共享任务的进展，还为医疗自然语言处理社区提供了可复现的基准方法。相关成果进一步拓展至其他临床领域，如慢性病管理、药物不良反应监测等，形成了持续的研究生态。

数据集最近研究