PARCOMED

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/HealthDataHub/PARCOMED

下载链接

链接失效反馈

官方服务：

资源简介：

PARCOMED 是一个法语生物医学文本语料库，旨在提升大型语言模型在医学领域的多语言能力。该语料库包含来自多种来源的数据，涵盖临床、对话、教育、百科、医学、药物、问答、法规和科学等多个类别。数据集提供两种配置：微调（finetuning）和指令调优（instruction-tuning），分别包含891,196和22,390个样本。数据经过严格的文本清理和去重处理，确保质量和多样性。特征包括输入文本、指令（仅指令调优）、输出（仅指令调优）、数据来源和文档类型。该数据集适用于医学领域的自然语言处理任务，如文本生成、问答和翻译等。

创建时间：

2026-03-17

原始信息汇总

PARCOMED 数据集概述

数据集基本信息

数据集名称: PARCOMED - PARTAGES Corpus of Open MEdical Documents
版本: 商业使用版本
语言: 法语 (fr)
许可证: CC-BY-4.0, Etalab-2.0
标签: 医学 (medical)

数据集配置与结构

数据集包含两种配置，分别对应不同的微调方法。

配置一：微调 (finetuning)

数据文件路径: finetuning/*.parquet
特征:
- input (string): 输入文本。
- source (string): 数据样本的来源数据集名称。
- document_type (string): 文档类型。
数据量: 训练集包含 891,196 个样本。

配置二：指令微调 (instruction-tuning)

数据文件路径: instruction-tuning/*.parquet
特征:
- input (string): 输入文本（用户提示或问题）。
- instruction (string): 系统提示（仅指令微调样本）。
- output (string): 监督指令微调的标准答案（仅指令微调样本）。
- source (string): 数据样本的来源数据集名称。
- document_type (string): 文档类型。
数据量: 训练集包含 22,390 个样本。

数据来源与文档类型

数据集整合了多种来源的法语生物医学文本，文档类型分类如下：

临床 (Clinical)

FRASIMED: 法语合成临床病例的标注语料库。许可证：CC-BY-4.0。

对话 (Dialogue)

PXCORPUS: 关于处方的法语医学对话语料库，经过转录和标注。许可证：CC-BY-4.0。

教育 (Education)

CERIMES: 法国高等教育和研究机构提出的数字教学资源索引。许可证：Etalab。

百科 (Encyclopedic)

WIKIPEDIA: 从法语维基百科中提取的语料库，收集自医学、药学和生物学类别。许可证：CC-BY-SA 3.0, GNU Free Documentation License。

医学 (Medical)

ECDC_TM: 来自欧洲疾病预防控制中心 (ECDC) 的医学文本语料库，用于机器翻译任务。许可证：免费许可证。

药品 (Medicinal)

EMEA_V3: 来自欧洲药品管理局 (EMEA) 的多语言医学文档语料库，第3版。许可证：CC-BY-4.0。
BDPM: 药品公共数据库。许可证：Etalab。

问答 (Question Answering)

DEFT2021: 来自DEFT挑战赛的语料库，包含三项任务：临床资料提取、学生回答评估和现有评分。许可证：CC-BY-4.0。
FRENCHMEDMCQA (INSTRUCT): 法语医学领域问题语料库，包含5个选项（单选或多选）及其人工修正。许可证：Apache 2.0。
MEDIQAL (INSTRUCT): 法语医学问答数据集，用于评估语言模型在事实医学回忆和临床推理方面的能力。许可证：CC-BY-4.0。

法规 (Regulation)

QUALISCOPE: 关于法国医疗机构质量的数据，提取自Scope Santé。许可证：Etalab。
CNEDIMTS: 来自HAS专门委员会的数据集，用于评估个体医疗器械以及诊断、治疗或辅助产品（不包括药物）及相关服务。许可证：Etalab。

科学 (Scientific)

WMT16: 基于PubMed科学出版物构建的WMT16语料库的生物医学变体，包含用于机器翻译的多语言数据。许可证：CC-BY-4.0。
HAL: 从HAL平台提取的语料库，汇集了生物医学领域的法语科学出版物。许可证：Etalab。
HAS: 来自法国国家卫生管理局 (HAS) 的数据。许可证：Etalab。
QUAERO: 来自MEDLINE标题和欧洲药品管理局 (EMEA-V3) 文档的多语言医学文档语料库，用于训练和评估自动医学语言处理模型。许可证：GNU Free Documentation License。
ISTEX: 来自ISTEX平台的科学出版物语料库，汇集了法语科学文献。许可证：Etalab。
MANTRA_GSC: 从生物医学语料库（Medline摘要标题、药品说明书、生物医学专利）中提取的数据集，根据UMLS子集进行独立概念标注。许可证：CC-BY-4.0。

预处理步骤

文本清洗

所有文档均使用受FlauBERT启发的流程进行预处理，包括Unicode转换和规范化、移除标准法语编码之外的字符、移除多个空格以及移除URL。此外，基于最小词数（=5）等标准保留了相关内容的文本。

去重

为避免数据集中冗余样本导致的过拟合，预处理阶段增加了基于MinHash相似性的去重步骤，相似性阈值为0.85，允许的排列数设置为128。

统计数据

按文档类型统计

微调数据 (FINETUNING)

文档类型	文档数量	总词数	平均词数	词数标准差	总字符数	平均字符数	字符数标准差
总计	891,196	883,648,000	991.53	6,768.64	5,504,410,000	6,176.42	41,398.6
科学	640,257	849,351,000	1,326.58	7,931.16	5,276,120,000	8,240.63	48,468.1
药品	233,960	24,484,900	104.654	647.2	163,167,000	697.415	4,332.35
百科	9,957	6,531,020	655.923	1,252.04	43,272,100	4,345.89	8,209.94
教育	22	1,715,190	77,963.1	47,413.5	11,623,500	528,341	321,525
临床	2,048	1,322,900	645.946	333.903	8,733,420	4,264.37	2,207.73
问答	275	111,792	406.516	264.436	626,549	2,278.36	1,402.57
法规	1,111	70,081	63.0792	54.7356	478,447	430.645	365.089
医学	2,152	42,460	19.7305	13.3516	280,626	130.402	92.0109
对话	1,414	18,372	12.9929	6.0802	103,531	73.2185	33.7791

指令微调数据 (INSTRUCTION-TUNING)

文档类型	文档数量	总词数	平均词数	词数标准差	总字符数	平均字符数	字符数标准差
总计	22,390	1,783,850	79.6716	59.3966	11,798,900	526.971	372.088
问答	22,390	1,783,850	79.6716	59.3966	11,798,900	526.971	372.088

按数据来源统计

微调数据 (FINETUNING)

来源	文档数量	总词数	平均词数	词数标准差	总字符数	平均字符数	字符数标准差
总计	891,196	883,648,000	991.53	6,768.64	5,504,410,000	6,176.42	41,398.6
HAL	26,987	703,474,000	26,067.1	26,603.8	4,325,670,000	160,287	160,053
HAS	11,334	96,173,400	8,485.39	16,098.9	620,009,000	54,703.4	102,858
ISTEX	12,179	43,138,400	3,542.03	2,156.57	282,624,000	23,205.9	14,238.5
BDPM	11,023	20,035,800	1,817.63	2,409.58	135,081,000	12,254.5	16,062.4
WIKIPEDIA	9,957	6,531,020	655.923	1,252.04	43,272,100	4,345.89	8,209.94
WMT16	587,562	6,495,520	11.055	5.40784	47,397,300	80.6677	37.5055
EMEA_V3	222,937	4,449,090	19.9567	15.5252	28,086,400	125.984	99.953
CERIMES	22	1,715,190	77,963.1	47,413.5	11,623,500	528,341	321,525
FRASIMED	2,048	1,322,900	645.946	333.903	8,733,420	4,264.37	2,207.73
DEFT2021	275	111,792	406.516	264.436	626,549	2,278.36	1,402.57
QUAERO	2,083	66,877	32.1061	161.208	394,933	189.598	905.512
CNEDIMTS	813	58,345	71.7651	60.599	398,478	490.133	403.23
ECDC_TM	2,152	42,460	19.7305	13.3516	280,626	130.402	92.0109
PXCORPUS	1,414	18,372	12.9929	6.0802	103,531	73.2185	33.7791
QUALISCOPE	298	11,736	39.3826	19.5879	79,969	268.352	131.707
MANTRA_GSC	112	3,085	27.5446	39.6518	22,356	199.607	306.097

指令微调数据 (INSTRUCTION-TUNING)

来源	文档数量	总词数	平均词数	词数标准差	总字符数	平均字符数	字符数标准差
总计	22,390	1,783,850	79.6716	59.3966	11,798,900	526.971	372.088
MEDIQAL	19,907	1,659,300	83.3526	61.6255	10,933,400	549.225	386.325
FRENCHMEDMCQA	2,483	124,547	50.1599	19.6412	865,475	348.56	126.799

文件组织

PARCOMED/ ├── finetuning/ │ ├ dataset1_part1.parquet │ ├ dataset1_part2.parquet │ └ ... ├── instruction-tuning/ │ ├ dataset2_part1.parquet │ ├ dataset2_part2.parquet │ └ ... └── README.md

使用方式

python from datasets import load_dataset

data = load_dataset( "HealthDataHub/PARCOMED", split="train", data_dir="finetuning", # 或 "instruction-tuning" download_mode="force_redownload", verification_mode="no_checks", )

贡献者

该数据集的创建得益于PARTAGES开发团队的协作努力，包括数据识别、收集和许可分析。特别感谢以下参与创建的个人和团队：

Armand VIOLLE, Stéphane OHAYON, Chaïma ABDELLAOUI 和 Xavier TANNIER (来自 LIMICS, Sorbonne Université)
Aidan MANNION, Cécile MACAIRE, Didier SCHWAB, Lorraine GOEURIOT 和 François PORTET (来自 LIG, Université Grenoble Alpes, CNRS, Grenoble INP)

搜集汇总

数据集介绍

构建方式

在法语生物医学数据稀缺的背景下，PARCOMED数据集的构建体现了对多源异构文档的系统性整合。该数据集从临床病例、医学对话、教育资料、百科全书条目、药品信息、问答对、法规文本及科学文献等八个维度，遴选了包括FRASIMED、PXCORPUS、CERIMES、WIKIPEDIA、EMEA_V3等十六个权威来源。构建过程采用了基于FlauBERT的文本清洗流程，涵盖Unicode标准化、冗余字符剔除及URL清理，并增设最小词长过滤以提升文本质量。为消除样本冗余，进一步应用MinHash相似度算法进行去重，设定0.85的相似度阈值与128次排列数，确保数据集的多样性与代表性。

使用方法

为适配不同训练场景，PARCOMED数据集提供了微调与指令微调两套独立的数据组织方式。用户可通过Hugging Face的load_dataset接口，指定data_dir参数为'finetuning'或'instruction-tuning'以加载相应数据。微调数据适用于语言模型预训练与领域适应，涵盖广泛的生物医学文本；指令微调数据则专注于问答任务，包含明确的指令、输入与输出三元组，适用于监督式指令优化。数据集采用分块Parquet文件存储，支持流式加载与并行处理，用户可通过调整split参数与下载模式灵活获取所需数据子集，便于集成至现有机器学习流水线。

背景与挑战

背景概述

在生物医学自然语言处理领域，法语数据的稀缺性长期制约着多语言大语言模型的专业化发展。PARCOMED数据集由法国研究团队于近期构建，其核心成员包括来自LIMICS实验室的Armand VIOLLE、Stéphane OHAYON等学者，以及LIG实验室的Didier SCHWAB、François PORTET等研究人员。该数据集旨在整合多元化的法语医学文本资源，涵盖临床病例、科学文献、法规文档及问答对话等多种类型，以支持模型在法语医学场景下的微调与指令调优。通过严谨的版权审核与数据清洗流程，PARCOMED不仅为学术研究提供基础，更开创了商业兼容的法语医学语料库先例，显著提升了法语医学人工智能应用的可行性与可靠性。

当前挑战

PARCOMED数据集致力于解决法语医学自然语言处理中数据匮乏与质量不均的核心难题。其构建面临多重挑战：在领域问题层面，医学文本具有高度的专业性与多样性，需平衡临床术语的准确性、法规文件的严谨性以及科普内容的可读性；同时，问答类数据需涵盖事实检索与临床推理等复杂任务，对模型的深度理解能力提出更高要求。在构建过程中，团队需克服异构数据源的格式差异与版权兼容性问题，通过精细化的去重算法与文本清洗流程消除冗余噪声，并确保教育类长文本与对话类短文本在统计分布上的代表性，以维持数据集的均衡性与实用性。

常用场景

经典使用场景

在法语生物医学自然语言处理领域，PARCOMED数据集为大型语言模型的微调与指令调优提供了关键资源。该数据集整合了临床病例、医学对话、科学文献及药品信息等多种文档类型，其经典应用场景在于支持法语医学文本的预训练与适应性训练。研究者利用其微调模块增强模型对专业术语的理解，而指令调优部分则专门用于构建能够执行问答、推理等任务的对话系统，显著提升了模型在法语医疗语境下的生成与理解能力。

解决学术问题

PARCOMED数据集有效应对了法语生物医学数据稀缺的学术挑战，为多语言医学语言模型的研究奠定了数据基础。它通过严谨的版权筛选与去重预处理，确保了数据的合法性与质量，解决了以往数据集中存在的许可冲突与冗余问题。该数据集支持跨文档类型的综合分析，助力研究者探索临床文本挖掘、医学问答系统及术语标准化等核心议题，推动了法语医学自然语言处理领域的标准化与可重复性研究。

实际应用

在实际应用中，PARCOMED数据集为开发法语医疗辅助工具提供了核心训练材料。基于该数据集训练的模型可集成到临床决策支持系统中，协助医护人员快速检索医学文献、解析患者病历或生成诊断建议。此外，它在医药信息平台中能够用于自动化药品说明分析，或在公共卫生机构中辅助政策文档的梳理与翻译，从而提升医疗服务的效率与准确性，促进法语区医疗信息化的深入发展。

数据集最近研究