dyspnea-crf-development
收藏Hugging Face2025-12-12 更新2025-12-13 收录
下载链接:
https://huggingface.co/datasets/NLP-FBK/dyspnea-crf-development
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含为CL4Health2026的CRF:filling共享任务开发的注释CRFs。临床笔记收集自意大利都灵的San Giovanni Bosco医院,并经过匿名化和注释处理。数据集分为两个语言版本:英语(en)和意大利语(it),每个版本包含80个样本。每个样本包含:`document_id`(临床笔记标识符)、`clinical_note`(记录患者临床历史的笔记)和`annotations`(带有`ground_truth`标签的CRF项目)。
创建时间:
2025-12-10
原始信息汇总
数据集概述
基本描述
该数据集包含为CL4Health2026会议的CRF填充共享任务准备的开发集标注CRF(病例报告表)。临床记录收集、匿名化及标注工作均在意大利都灵的San Giovanni Bosco (SGB)医院完成。
数据集结构
- 配置名称: default
- 语言划分: 包含两个独立的分支(split),分别对应不同语言:
it: 意大利语分支en: 英语分支
数据规模
- 总下载大小: 1,366,346 字节
- 总数据集大小: 945,302 字节
- 分支详情:
it分支: 包含80个样本,大小为469,642字节。en分支: 包含80个样本,大小为475,660字节。
数据特征(Features)
每个样本(共160个)包含以下字段:
document_id: 临床记录标识符(字符串类型)。clinical_note: 记录患者临床病史的文本笔记(字符串类型)。annotations: 标注信息,为一个列表,包含:ground_truth: 真实标签(字符串类型)。item: CRF项目(字符串类型)。
文件配置
数据文件按以下方式组织:
it分支数据文件路径模式:data/it-*en分支数据文件路径模式:data/en-*
更多信息
关于该数据集的更多信息,请访问:https://sites.google.com/fbk.eu/crf
搜集汇总
数据集介绍

构建方式
在临床信息抽取领域,dyspnea-crf-development数据集作为CRF填充共享任务的开发标注集,其构建过程体现了严谨的医学数据治理原则。该数据集源自意大利都灵San Giovanni Bosco医院,通过收集真实的临床记录,并经过严格的匿名化处理以保护患者隐私。随后,由专业标注人员依据特定任务框架,对每份病历中的关键信息进行结构化标注,形成了包含文档标识、原始病历文本及带真实标签的CRF项目注释的标准化数据条目。整个构建流程确保了数据来源的真实性与标注质量的一致性,为后续模型开发提供了可靠的基础。
特点
该数据集的核心特点在于其双语架构与精细的结构化标注。数据集平行提供了英语和意大利语两个独立的分支,各包含80条临床记录,这种设计为跨语言临床自然语言处理研究提供了直接对比的素材。每条数据不仅包含原始的自由文本临床记录,还附带了经过人工标注的结构化CRF项目及其对应的真实值,这种“文本-标注”对的形式极大地便利了信息抽取模型的训练与评估。数据规模适中,专注于呼吸困难相关的临床场景,使得研究者能够深入探索特定领域的语言模式与信息结构。
使用方法
对于研究者而言,该数据集主要用于开发与评估临床病例报告表自动填充模型。使用者可分别加载英语或意大利语分片,利用`clinical_note`字段作为模型输入,并将`annotations`字段中的`item`与`ground_truth`作为训练或测试的目标标签。典型的应用流程包括文本预处理、特征工程、模型训练(如序列标注模型)以及性能评估。通过对比模型预测结果与标注的真实值,可以量化模型在从自由文本中抽取结构化信息方面的能力。该数据集作为开发集,其首要用途是支持模型在正式测试前的调优与验证工作。
背景与挑战
背景概述
在临床自然语言处理领域,结构化病历信息的自动提取是提升医疗数据利用效率的关键。dyspnea-crf-development数据集作为CL4Health2026会议中CRF填充共享任务的开发标注数据,由意大利都灵San Giovanni Bosco医院的研究团队于近期构建。该数据集专注于呼吸困难症状相关的临床记录,旨在通过标注病历中的关键信息项,推动临床报告表单自动填充技术的发展。其双语(英语与意大利语)标注设计,不仅反映了跨语言医疗信息处理的现实需求,也为多语言临床NLP模型提供了重要训练资源,对促进医疗人工智能的国际化应用具有显著意义。
当前挑战
该数据集致力于解决临床报告表单自动填充这一核心问题,其挑战在于准确识别和提取非结构化临床文本中的语义信息,并映射至结构化字段。病历文本常包含专业术语、缩写及非标准表述,模型需克服医学语言的复杂性与歧义性。在构建过程中,研究人员面临双重困难:一是确保标注一致性,要求标注者具备扎实的医学知识以理解临床上下文;二是处理数据匿名化与伦理合规性,必须在保护患者隐私的前提下保留文本的临床价值。此外,双语平行数据的收集与对齐也增加了资源协调与质量控制难度。
常用场景
经典使用场景
在临床自然语言处理领域,dyspnea-crf-development数据集为呼吸困难病例报告表填充任务提供了关键支持。该数据集通过标注的临床笔记,专注于从非结构化文本中提取结构化信息,例如患者症状、诊断和治疗细节。研究人员利用其双语(英语和意大利语)标注数据,开发并优化命名实体识别与关系提取模型,以自动化处理临床文档,提升医疗数据管理的效率。这一场景直接服务于临床决策支持系统,为医疗信息标准化奠定基础。
实际应用
在实际医疗环境中,dyspnea-crf-development数据集支持自动化病例报告表填充系统的部署,减少医护人员手动录入的负担。例如,在医院信息系统如意大利都灵圣乔瓦尼博斯科医院中,该数据集可用于训练模型,从临床笔记中自动提取呼吸困难相关指标,加速患者评估和流行病学研究。这不仅优化了临床工作流程,还提高了数据一致性和医疗服务质量,为公共卫生监测和个性化治疗提供技术支持。
衍生相关工作
基于dyspnea-crf-development数据集,衍生出多项经典研究工作,包括在CL4Health2026共享任务中的CRF填充模型竞赛。这些工作推动了跨语言临床实体识别技术的发展,例如多语言BERT模型的适配与优化。相关研究进一步扩展至其他症状的CRF标注数据集,促进了医疗自然语言处理社区的协作,为构建更全面的临床信息提取框架贡献了核心资源,影响了后续医疗AI项目的设计与实施。
以上内容由遇见数据集搜集并总结生成



