dyspnea-crf-development

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-development

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含为CL4Health2026的CRF:filling共享任务开发的注释CRFs。临床笔记收集自意大利都灵的San Giovanni Bosco医院，并经过匿名化和注释处理。数据集分为两个语言版本：英语（en）和意大利语（it），每个版本包含80个样本。每个样本包含：`document_id`（临床笔记标识符）、`clinical_note`（记录患者临床历史的笔记）和`annotations`（带有`ground_truth`标签的CRF项目）。

创建时间：

2025-12-10

原始信息汇总

数据集概述

基本描述

该数据集包含为CL4Health2026会议的CRF填充共享任务准备的开发集标注CRF（病例报告表）。临床记录收集、匿名化及标注工作均在意大利都灵的San Giovanni Bosco (SGB)医院完成。

数据集结构

配置名称: default
语言划分: 包含两个独立的分支（split），分别对应不同语言：
- it: 意大利语分支
- en: 英语分支

数据规模

总下载大小: 1,366,346 字节
总数据集大小: 945,302 字节
分支详情:
- it分支: 包含80个样本，大小为469,642字节。
- en分支: 包含80个样本，大小为475,660字节。

数据特征（Features）

每个样本（共160个）包含以下字段：

document_id: 临床记录标识符（字符串类型）。
clinical_note: 记录患者临床病史的文本笔记（字符串类型）。
annotations: 标注信息，为一个列表，包含：
- ground_truth: 真实标签（字符串类型）。
- item: CRF项目（字符串类型）。

文件配置

数据文件按以下方式组织：

it分支数据文件路径模式: data/it-*
en分支数据文件路径模式: data/en-*

更多信息

关于该数据集的更多信息，请访问：https://sites.google.com/fbk.eu/crf

搜集汇总

数据集介绍

构建方式

在临床信息抽取领域，dyspnea-crf-development数据集作为CRF填充共享任务的开发标注集，其构建过程体现了严谨的医学数据治理原则。该数据集源自意大利都灵San Giovanni Bosco医院，通过收集真实的临床记录，并经过严格的匿名化处理以保护患者隐私。随后，由专业标注人员依据特定任务框架，对每份病历中的关键信息进行结构化标注，形成了包含文档标识、原始病历文本及带真实标签的CRF项目注释的标准化数据条目。整个构建流程确保了数据来源的真实性与标注质量的一致性，为后续模型开发提供了可靠的基础。

特点

该数据集的核心特点在于其双语架构与精细的结构化标注。数据集平行提供了英语和意大利语两个独立的分支，各包含80条临床记录，这种设计为跨语言临床自然语言处理研究提供了直接对比的素材。每条数据不仅包含原始的自由文本临床记录，还附带了经过人工标注的结构化CRF项目及其对应的真实值，这种“文本-标注”对的形式极大地便利了信息抽取模型的训练与评估。数据规模适中，专注于呼吸困难相关的临床场景，使得研究者能够深入探索特定领域的语言模式与信息结构。

使用方法

对于研究者而言，该数据集主要用于开发与评估临床病例报告表自动填充模型。使用者可分别加载英语或意大利语分片，利用`clinical_note`字段作为模型输入，并将`annotations`字段中的`item`与`ground_truth`作为训练或测试的目标标签。典型的应用流程包括文本预处理、特征工程、模型训练（如序列标注模型）以及性能评估。通过对比模型预测结果与标注的真实值，可以量化模型在从自由文本中抽取结构化信息方面的能力。该数据集作为开发集，其首要用途是支持模型在正式测试前的调优与验证工作。

背景与挑战

背景概述

在临床自然语言处理领域，结构化病历信息的自动提取是提升医疗数据利用效率的关键。dyspnea-crf-development数据集作为CL4Health2026会议中CRF填充共享任务的开发标注数据，由意大利都灵San Giovanni Bosco医院的研究团队于近期构建。该数据集专注于呼吸困难症状相关的临床记录，旨在通过标注病历中的关键信息项，推动临床报告表单自动填充技术的发展。其双语（英语与意大利语）标注设计，不仅反映了跨语言医疗信息处理的现实需求，也为多语言临床NLP模型提供了重要训练资源，对促进医疗人工智能的国际化应用具有显著意义。

当前挑战

该数据集致力于解决临床报告表单自动填充这一核心问题，其挑战在于准确识别和提取非结构化临床文本中的语义信息，并映射至结构化字段。病历文本常包含专业术语、缩写及非标准表述，模型需克服医学语言的复杂性与歧义性。在构建过程中，研究人员面临双重困难：一是确保标注一致性，要求标注者具备扎实的医学知识以理解临床上下文；二是处理数据匿名化与伦理合规性，必须在保护患者隐私的前提下保留文本的临床价值。此外，双语平行数据的收集与对齐也增加了资源协调与质量控制难度。

常用场景

经典使用场景

在临床自然语言处理领域，dyspnea-crf-development数据集为呼吸困难病例报告表填充任务提供了关键支持。该数据集通过标注的临床笔记，专注于从非结构化文本中提取结构化信息，例如患者症状、诊断和治疗细节。研究人员利用其双语（英语和意大利语）标注数据，开发并优化命名实体识别与关系提取模型，以自动化处理临床文档，提升医疗数据管理的效率。这一场景直接服务于临床决策支持系统，为医疗信息标准化奠定基础。

实际应用

在实际医疗环境中，dyspnea-crf-development数据集支持自动化病例报告表填充系统的部署，减少医护人员手动录入的负担。例如，在医院信息系统如意大利都灵圣乔瓦尼博斯科医院中，该数据集可用于训练模型，从临床笔记中自动提取呼吸困难相关指标，加速患者评估和流行病学研究。这不仅优化了临床工作流程，还提高了数据一致性和医疗服务质量，为公共卫生监测和个性化治疗提供技术支持。

衍生相关工作

基于dyspnea-crf-development数据集，衍生出多项经典研究工作，包括在CL4Health2026共享任务中的CRF填充模型竞赛。这些工作推动了跨语言临床实体识别技术的发展，例如多语言BERT模型的适配与优化。相关研究进一步扩展至其他症状的CRF标注数据集，促进了医疗自然语言处理社区的协作，为构建更全面的临床信息提取框架贡献了核心资源，影响了后续医疗AI项目的设计与实施。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集