PARHAF

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/HealthDataHub/PARHAF

下载链接

链接失效反馈

官方服务：

资源简介：

PARHAF 是一个开放的法语临床报告语料库，包含由资深医学住院医师撰写并经过同行评审的虚构患者临床报告。该数据集旨在支持在严格的健康数据保护约束下开发和评估临床自然语言处理系统。每个患者记录包含结构化临床信息（如诊断、手术、护理路径、出院数据）以及相关文档。数据集共包含4259名患者和6190份文档，总计约395万词。数据按医学专科分类，涵盖心脏病学、心血管外科、重症监护等多个专科。数据集提供了患者级别的元数据、临床场景建议和文档列表，文档内容以纯文本形式存储。PARHAF适用于临床NLP研究、法语医学大模型基准测试、医学教育等场景，但不应用于临床决策、临床验证或流行病学推断。数据集采用Etalab 2.0和CC BY 4.0双重许可。

创建时间：

2026-03-25

原始信息汇总

PARHAF 数据集概述

数据集基本信息

数据集名称: PARHAF
平台地址: https://huggingface.co/datasets/HealthDataHub/PARHAF
语言: 法语 (fr_FR)
许可协议: Etalab 2.0 许可证 / CC BY 4.0
相关论文: https://arxiv.org/pdf/2603.20494

数据集摘要

PARHAF 是一个开放的法语虚构患者临床报告语料库，由人工撰写。该数据集旨在支持在严格的健康数据保护约束下开发和评估临床自然语言处理系统。每个患者记录都附有结构化的临床信息。

数据统计

患者数量: 4259
文档数量: 6190
总词数: 3952583

数据来源与创建

临床报告由高级住院医师专门为此语料库撰写。
构建临床场景的源数据来自法国国家数据库 SNDS 中的全国医院索赔数据。
为遵守隐私法规，场景通过对观察到的分布进行抽样来构建。
诊断分布旨在减少非常常见病症的过度代表，并纳入较少见的情况。
作者获得了一个包含以下要素的场景：主要诊断、患者年龄、入院方式（如相关）、出院方式（如相关）、护理类型（如相关）。
向作者提供了标准化的临床报告模板。

数据集结构

数据实例

一个数据实例对应一名患者，包含所有相关文档和元数据。

数据字段

患者级别 (`data[]`)

id: 全局唯一患者标识符
local_id: 专业内的本地标识符
specialty: 医学专业
author: 作者三字母代码
reviewer: 审阅者三字母代码
pool: 数据集分区
suggested_scenario: 提供给报告作者的结构化临床元数据
documents[]: 该患者的报告列表
structured_abstract: 可选的、由作者撰写的非结构化摘要

`suggested_scenario`

name: 虚构患者姓名
age.value: 年龄值
age.unit: 年龄单位
sex: 患者性别
admission_mode: 入院来源
discharge_mode: 出院目的地
primary_procedure.code: CCAM 代码
primary_procedure.description: 手术标签
primary_diagnosis.code: ICD-10 代码
primary_diagnosis.description: 诊断标签
type_of_care: 护理描述

`documents[]` (患者报告，每名患者 1-3 份)

type: 文档类型
header: 文档标题
word_count: 报告中的词数
path: 原始文本的相对路径

受控词汇表

以下字段使用封闭值集，应视为分类变量。

`specialty`

包含 20 个医学专业，例如：ANATOMOPATHOLOGIE, CARDIOLOGIE, CHIRURGIE VISCERALE, MEDECINE INTERNE, NEUROLOGIE, PNEUMOLOGIE 等。

`pool`

CU 1 - Pseudonymisation
CU 2 - ICD-10 coding
CU 5a - Oncology (biomarkers)
CU 5b - Oncology (response to treatment)
CU 6 - Infectiology
General

`age.unit`

ans
mois

`sex`

`admission_mode`

包含 13 个入院方式选项，例如：admission par les urgences, domicile, transfert dun autre hôpital 等，以及 None。

`discharge_mode`

包含 18 个出院方式选项，例如：domicile, décès, transfert en soins de suite et réadaptation 等，以及 None。

文档 `type`

ACCOUCHEMENT (分娩)
ANAPATH (病理报告)
CRC (会诊记录)
CRH (住院记录)
CRO (手术记录)
MATERNITE (产科)
URGENCES (急诊)

数据划分

该数据集仅包含未标记数据。标记版本可在同一平台的单独数据集中获取。
所有用例的测试集文档均被排除。它们将继续处于禁运状态，以便在受控条件下进行未来评估，限制因先前数据暴露导致的大语言模型污染风险。

数据格式与获取

数据集提供两种格式，信息内容相同：

独立语料库（Hugging Face 外）: 一个 JSON 文件（包含元数据和文档路径）和按专业组织的独立文本文件。
Hugging Face 数据集: Parquet/Arrow 列式格式，文档文本嵌入在数据结构中，针对高效加载和机器学习进行了优化。

预期用途

该数据集可用于支持多种应用，包括：

共享临床记录和注释
在临床 NLP 社区内汇集工作成果
为法语医学大语言模型提供基准测试
实现可重复的临床 NLP 研究
支持医学教学和教育
促进 PARTAGES 7 个用例的工作
实现隐私安全的数据增强

非预期用途

该数据集不适用于：

临床决策或患者护理
临床验证或性能声明
推广到未见过的医院、地区或实践
流行病学或人群水平推断
评估真实世界的安全性或临床风险
替代真实临床数据进行部署
在真实的临床语言上对模型进行压力测试

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，构建高质量且符合隐私保护要求的数据集至关重要。PARHAF数据集的构建过程体现了严谨的学术方法，其核心是基于法国国家医院索赔数据库SNDS中观察到的真实分布进行采样，以此生成虚构患者的临床场景。这些场景由资深住院医师根据标准化临床报告模板撰写，并由同专业的另一位资深住院医师进行审阅，确保了文本的专业性和内部一致性。整个流程旨在平衡数据代表性，通过调整诊断分布以减少常见病症的过度代表，并纳入较少见的情况，从而在严格遵守健康数据保护法规的前提下，为研究提供丰富且结构化的语料。

特点

PARHAF数据集以其独特的虚构患者临床报告集合而著称，专为支持法语临床NLP系统开发而设计。该数据集包含4259名患者及其6190份文档，覆盖心脏病学、肿瘤学、感染病学等20个医学专科，提供了详尽的患者元数据与结构化临床信息。其显著特点在于每份报告均包含`suggested_scenario`字段，详细记录了虚构患者的年龄、性别、主要诊断与操作、入院与出院模式等结构化元数据，并与原始报告文本紧密关联。数据集采用分层患者级组织方式，并提供了独立的JSON索引与原始文本文件两种格式，兼顾了灵活性与高效加载的需求，为隐私安全的数据增强和可重复研究奠定了坚实基础。

使用方法

该数据集主要服务于临床自然语言处理的研究与开发，用户可通过Hugging Face平台直接加载其列式存储格式，或使用独立的JSON文件与配套文本文档进行访问。典型应用包括共享临床笔记与标注、汇聚社区研究力量、对法语医学大语言模型进行基准测试，以及支持医学教学与教育。研究人员可利用其丰富的结构化元数据与原始报告文本，开展诸如伪匿名化、ICD-10编码、肿瘤生物标志物分析等特定用例的探索。需要注意的是，该数据集明确排除测试集文档以避免模型污染，且其内容仅用于研究目的，不可用于临床决策、流行病学推断或现实世界风险评估。

背景与挑战

背景概述

PARHAF数据集是由HealthDataHub等机构于2024年发布的法语虚构临床报告开放语料库，旨在支持在严格健康数据保护约束下临床自然语言处理系统的开发与评估。该数据集构建了包含4259名虚构患者的临床记录，涵盖心脏病学、肿瘤学、感染病学等二十余个医学专科，每份报告均由资深住院医师撰写并由同行评审，确保了临床文本的专业性与真实性。其核心研究问题聚焦于如何通过高质量模拟数据克服真实临床数据获取的隐私与法律壁垒，从而推动法语医学大语言模型的基准测试与可重复性研究，为临床NLP社区提供了宝贵的资源共享平台。

当前挑战

PARHAF数据集致力于解决临床自然语言处理领域在缺乏真实患者数据环境下面临的核心挑战，即如何生成既符合医学逻辑又具备语言多样性的高质量训练语料。在构建过程中，研究团队需克服多重困难：首先，基于法国国家医院索赔数据库构建临床场景时，必须在遵守隐私法规的前提下，通过分布采样技术平衡常见病与罕见病的代表性，避免数据偏差；其次，协调多专科医师进行虚构报告的撰写与审核，确保文本在专业术语、叙事结构和临床推理上均达到真实标准，这一过程耗费大量人力与时间成本；此外，数据集目前仅提供未标注版本，且测试集处于保密状态，这限制了其在某些监督学习任务上的直接应用范围。

常用场景

经典使用场景

在临床自然语言处理领域，PARHAF数据集作为法国首个大规模虚构临床报告语料库，其经典使用场景聚焦于法语医疗文本的模型训练与评估。该数据集通过模拟真实医疗场景，为研究者提供了丰富的结构化临床元数据与文本报告，支持从命名实体识别到文档摘要生成等多种NLP任务的基准测试。尤其在隐私保护严格的研究环境下，PARHAF使得开发人员能够在无需接触真实患者数据的前提下，构建和优化针对法语临床语言的专用模型，为医疗人工智能的合规发展奠定了数据基础。

衍生相关工作

围绕PARHAF数据集，已衍生出多项具有影响力的研究工作。例如，PARTAGES项目基于该数据构建了涵盖去标识化、临床编码等七个核心用例的基准测试套件，推动了法语医疗大语言模型的系统性评估。相关团队进一步开发了针对肿瘤学响应预测与感染病学文档分析的专用模型，并在国际会议发表了多篇关于跨专科临床文本表示学习的论文。这些工作不仅扩展了数据集的学术价值，也为欧洲医疗NLP社区建立了可延续的研究范式。

数据集最近研究