PARHAF
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/HealthDataHub/PARHAF
下载链接
链接失效反馈官方服务:
资源简介:
PARHAF 是一个开放的法语临床报告语料库,包含由资深医学住院医师撰写并经过同行评审的虚构患者临床报告。该数据集旨在支持在严格的健康数据保护约束下开发和评估临床自然语言处理系统。每个患者记录包含结构化临床信息(如诊断、手术、护理路径、出院数据)以及相关文档。数据集共包含4259名患者和6190份文档,总计约395万词。数据按医学专科分类,涵盖心脏病学、心血管外科、重症监护等多个专科。数据集提供了患者级别的元数据、临床场景建议和文档列表,文档内容以纯文本形式存储。PARHAF适用于临床NLP研究、法语医学大模型基准测试、医学教育等场景,但不应用于临床决策、临床验证或流行病学推断。数据集采用Etalab 2.0和CC BY 4.0双重许可。
创建时间:
2026-03-25
原始信息汇总
PARHAF 数据集概述
数据集基本信息
- 数据集名称: PARHAF
- 平台地址: https://huggingface.co/datasets/HealthDataHub/PARHAF
- 语言: 法语 (fr_FR)
- 许可协议: Etalab 2.0 许可证 / CC BY 4.0
- 相关论文: https://arxiv.org/pdf/2603.20494
数据集摘要
PARHAF 是一个开放的法语虚构患者临床报告语料库,由人工撰写。该数据集旨在支持在严格的健康数据保护约束下开发和评估临床自然语言处理系统。每个患者记录都附有结构化的临床信息。
数据统计
- 患者数量: 4259
- 文档数量: 6190
- 总词数: 3952583
数据来源与创建
- 临床报告由高级住院医师专门为此语料库撰写。
- 构建临床场景的源数据来自法国国家数据库 SNDS 中的全国医院索赔数据。
- 为遵守隐私法规,场景通过对观察到的分布进行抽样来构建。
- 诊断分布旨在减少非常常见病症的过度代表,并纳入较少见的情况。
- 作者获得了一个包含以下要素的场景:主要诊断、患者年龄、入院方式(如相关)、出院方式(如相关)、护理类型(如相关)。
- 向作者提供了标准化的临床报告模板。
数据集结构
数据实例
一个数据实例对应一名患者,包含所有相关文档和元数据。
数据字段
患者级别 (data[])
id: 全局唯一患者标识符local_id: 专业内的本地标识符specialty: 医学专业author: 作者三字母代码reviewer: 审阅者三字母代码pool: 数据集分区suggested_scenario: 提供给报告作者的结构化临床元数据documents[]: 该患者的报告列表structured_abstract: 可选的、由作者撰写的非结构化摘要
suggested_scenario
name: 虚构患者姓名age.value: 年龄值age.unit: 年龄单位sex: 患者性别admission_mode: 入院来源discharge_mode: 出院目的地primary_procedure.code: CCAM 代码primary_procedure.description: 手术标签primary_diagnosis.code: ICD-10 代码primary_diagnosis.description: 诊断标签type_of_care: 护理描述
documents[] (患者报告,每名患者 1-3 份)
type: 文档类型header: 文档标题word_count: 报告中的词数path: 原始文本的相对路径
受控词汇表
以下字段使用封闭值集,应视为分类变量。
specialty
包含 20 个医学专业,例如:ANATOMOPATHOLOGIE, CARDIOLOGIE, CHIRURGIE VISCERALE, MEDECINE INTERNE, NEUROLOGIE, PNEUMOLOGIE 等。
pool
- CU 1 - Pseudonymisation
- CU 2 - ICD-10 coding
- CU 5a - Oncology (biomarkers)
- CU 5b - Oncology (response to treatment)
- CU 6 - Infectiology
- General
age.unit
- ans
- mois
sex
- F
- M
admission_mode
包含 13 个入院方式选项,例如:admission par les urgences, domicile, transfert dun autre hôpital 等,以及 None。
discharge_mode
包含 18 个出院方式选项,例如:domicile, décès, transfert en soins de suite et réadaptation 等,以及 None。
文档 type
- ACCOUCHEMENT (分娩)
- ANAPATH (病理报告)
- CRC (会诊记录)
- CRH (住院记录)
- CRO (手术记录)
- MATERNITE (产科)
- URGENCES (急诊)
数据划分
- 该数据集仅包含未标记数据。标记版本可在同一平台的单独数据集中获取。
- 所有用例的测试集文档均被排除。它们将继续处于禁运状态,以便在受控条件下进行未来评估,限制因先前数据暴露导致的大语言模型污染风险。
数据格式与获取
数据集提供两种格式,信息内容相同:
- 独立语料库(Hugging Face 外): 一个 JSON 文件(包含元数据和文档路径)和按专业组织的独立文本文件。
- Hugging Face 数据集: Parquet/Arrow 列式格式,文档文本嵌入在数据结构中,针对高效加载和机器学习进行了优化。
预期用途
该数据集可用于支持多种应用,包括:
- 共享临床记录和注释
- 在临床 NLP 社区内汇集工作成果
- 为法语医学大语言模型提供基准测试
- 实现可重复的临床 NLP 研究
- 支持医学教学和教育
- 促进 PARTAGES 7 个用例的工作
- 实现隐私安全的数据增强
非预期用途
该数据集不适用于:
- 临床决策或患者护理
- 临床验证或性能声明
- 推广到未见过的医院、地区或实践
- 流行病学或人群水平推断
- 评估真实世界的安全性或临床风险
- 替代真实临床数据进行部署
- 在真实的临床语言上对模型进行压力测试
搜集汇总
数据集介绍

构建方式
在临床自然语言处理领域,构建高质量且符合隐私保护要求的数据集至关重要。PARHAF数据集的构建过程体现了严谨的学术方法,其核心是基于法国国家医院索赔数据库SNDS中观察到的真实分布进行采样,以此生成虚构患者的临床场景。这些场景由资深住院医师根据标准化临床报告模板撰写,并由同专业的另一位资深住院医师进行审阅,确保了文本的专业性和内部一致性。整个流程旨在平衡数据代表性,通过调整诊断分布以减少常见病症的过度代表,并纳入较少见的情况,从而在严格遵守健康数据保护法规的前提下,为研究提供丰富且结构化的语料。
特点
PARHAF数据集以其独特的虚构患者临床报告集合而著称,专为支持法语临床NLP系统开发而设计。该数据集包含4259名患者及其6190份文档,覆盖心脏病学、肿瘤学、感染病学等20个医学专科,提供了详尽的患者元数据与结构化临床信息。其显著特点在于每份报告均包含`suggested_scenario`字段,详细记录了虚构患者的年龄、性别、主要诊断与操作、入院与出院模式等结构化元数据,并与原始报告文本紧密关联。数据集采用分层患者级组织方式,并提供了独立的JSON索引与原始文本文件两种格式,兼顾了灵活性与高效加载的需求,为隐私安全的数据增强和可重复研究奠定了坚实基础。
使用方法
该数据集主要服务于临床自然语言处理的研究与开发,用户可通过Hugging Face平台直接加载其列式存储格式,或使用独立的JSON文件与配套文本文档进行访问。典型应用包括共享临床笔记与标注、汇聚社区研究力量、对法语医学大语言模型进行基准测试,以及支持医学教学与教育。研究人员可利用其丰富的结构化元数据与原始报告文本,开展诸如伪匿名化、ICD-10编码、肿瘤生物标志物分析等特定用例的探索。需要注意的是,该数据集明确排除测试集文档以避免模型污染,且其内容仅用于研究目的,不可用于临床决策、流行病学推断或现实世界风险评估。
背景与挑战
背景概述
PARHAF数据集是由HealthDataHub等机构于2024年发布的法语虚构临床报告开放语料库,旨在支持在严格健康数据保护约束下临床自然语言处理系统的开发与评估。该数据集构建了包含4259名虚构患者的临床记录,涵盖心脏病学、肿瘤学、感染病学等二十余个医学专科,每份报告均由资深住院医师撰写并由同行评审,确保了临床文本的专业性与真实性。其核心研究问题聚焦于如何通过高质量模拟数据克服真实临床数据获取的隐私与法律壁垒,从而推动法语医学大语言模型的基准测试与可重复性研究,为临床NLP社区提供了宝贵的资源共享平台。
当前挑战
PARHAF数据集致力于解决临床自然语言处理领域在缺乏真实患者数据环境下面临的核心挑战,即如何生成既符合医学逻辑又具备语言多样性的高质量训练语料。在构建过程中,研究团队需克服多重困难:首先,基于法国国家医院索赔数据库构建临床场景时,必须在遵守隐私法规的前提下,通过分布采样技术平衡常见病与罕见病的代表性,避免数据偏差;其次,协调多专科医师进行虚构报告的撰写与审核,确保文本在专业术语、叙事结构和临床推理上均达到真实标准,这一过程耗费大量人力与时间成本;此外,数据集目前仅提供未标注版本,且测试集处于保密状态,这限制了其在某些监督学习任务上的直接应用范围。
常用场景
经典使用场景
在临床自然语言处理领域,PARHAF数据集作为法国首个大规模虚构临床报告语料库,其经典使用场景聚焦于法语医疗文本的模型训练与评估。该数据集通过模拟真实医疗场景,为研究者提供了丰富的结构化临床元数据与文本报告,支持从命名实体识别到文档摘要生成等多种NLP任务的基准测试。尤其在隐私保护严格的研究环境下,PARHAF使得开发人员能够在无需接触真实患者数据的前提下,构建和优化针对法语临床语言的专用模型,为医疗人工智能的合规发展奠定了数据基础。
衍生相关工作
围绕PARHAF数据集,已衍生出多项具有影响力的研究工作。例如,PARTAGES项目基于该数据构建了涵盖去标识化、临床编码等七个核心用例的基准测试套件,推动了法语医疗大语言模型的系统性评估。相关团队进一步开发了针对肿瘤学响应预测与感染病学文档分析的专用模型,并在国际会议发表了多篇关于跨专科临床文本表示学习的论文。这些工作不仅扩展了数据集的学术价值,也为欧洲医疗NLP社区建立了可延续的研究范式。
数据集最近研究
最新研究方向
在临床自然语言处理领域,PARHAF数据集作为首个大规模法语虚构临床报告语料库,正推动隐私保护下的医疗人工智能研究。该数据集通过模拟真实临床场景,为医疗大语言模型的预训练与微调提供了高质量、低风险的语料资源。前沿研究聚焦于利用其结构化元数据与自由文本的对应关系,探索多模态医疗信息抽取、临床决策支持系统的可解释性增强,以及跨专科医疗知识的迁移学习。随着欧盟《人工智能法案》等法规对医疗数据使用的严格限制,此类合成数据在模型开发中的合规性价值日益凸显,促进了医疗NLP技术在诊断编码、病历去识别化及肿瘤学等专科应用中的安全迭代与评估。
以上内容由遇见数据集搜集并总结生成



