five

PARCOMED_research_only

收藏
Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/HealthDataHub/PARCOMED_research_only
下载链接
链接失效反馈
官方服务:
资源简介:
PARCOMED_research_only 是一个专注于法语生物医学文本的研究专用语料库,旨在提升大型语言模型在医学领域的多语言能力。该语料库整合了来自临床、对话、教育、百科、医学、药物、问答、法规和科学等多个领域的多样化数据源,包括 E3C、CAS、FRASIMED、PXCORPUS、CERIMES、WIKIPEDIA、EMEA_V3 等。数据集经过严格的文本清洗和去重预处理,包含两个主要配置:finetuning(905,342 个样本)和 instruction-tuning(22,390 个样本)。特征包括输入文本、指令(仅 instruction-tuning)、输出(仅 instruction-tuning)、数据来源和文档类型。该语料库特别注重数据许可合规性,确保完全符合研究用途要求,并提供了详细的文档类型和来源统计信息。
创建时间:
2026-03-17
原始信息汇总

PARCOMED_research_only 数据集概述

数据集基本信息

  • 数据集名称: PARCOMED_research_only (PARTAGES Corpus of Open MEdical Documents)
  • 发布者: HealthDataHub
  • 语言: 法语 (French)
  • 许可证: CC-BY-NC-4.0
  • 领域标签: 医学 (medical)

数据集配置与结构

数据集提供两种配置,分别用于不同的模型适应方法。

配置一:微调 (finetuning)

  • 数据文件路径: finetuning/*.parquet
  • 特征:
    • input (string): 输入文本。
    • source (string): 数据样本的来源数据集名称。
    • document_type (string): 文档类型。
  • 数据量: 训练集包含 905,342 个样本。

配置二:指令微调 (instruction-tuning)

  • 数据文件路径: instruction-tuning/*.parquet
  • 特征:
    • input (string): 输入文本(用户提示或问题)。
    • instruction (string): 系统提示。
    • output (string): 监督指令微调的标准答案。
    • source (string): 数据样本的来源数据集名称。
    • document_type (string): 文档类型。
  • 数据量: 训练集包含 22,390 个样本。

数据集目标与背景

该数据集旨在应对法语生物医学数据稀缺的挑战,以提升大型语言模型在医学领域的多语言能力。此版本为仅供研究使用的语料库,其构建过程对每个数据源的许可条款进行了严格审查,确保完全兼容研究用途。

数据来源与文档类型

数据集整合了来自多种类型和来源的法语生物医学文本。

文档类型

  • 临床 (Clinical)
  • 对话 (Dialogue)
  • 教育 (Education)
  • 百科 (Encyclopedic)
  • 医学 (Medical)
  • 药物 (Medicinal)
  • 问答 (Question Answering)
  • 法规 (Regulation)
  • 科学 (Scientific)

具体数据源列表

  • 临床: E3C, CAS, FRASIMED, ESSAI
  • 对话: PXCORPUS, MQC
  • 教育: CERIMES
  • 百科: WIKIPEDIA
  • 医学: ECDC_TM
  • 药物: EMEA_V3, BDPM
  • 问答: DEFT2021, FRENCHMEDMCQA (INSTRUCT), MEDIQAL (INSTRUCT)
  • 法规: QUALISCOPE, CNEDIMTS
  • 科学: WMT16, HAL, HAS, QUAERO, WMT18_MEDLINE, ISTEX, CLEAR, MANTRA_GSC

数据预处理流程

  1. 文本清洗: 采用受 FlauBERT 启发的流程,包括 Unicode 转换与标准化、移除非标准法语编码字符、移除多余空格和 URL。同时应用了基于最小词数(≥5)的过滤标准。
  2. 去重: 使用基于 MinHash 相似度的经典方法进行去重,相似度阈值设为 0.85,排列数设为 128。该步骤在跨语料库层面进行。

数据统计

按文档类型统计(微调数据)

类型 文档数量 总词数 平均词数 词数标准差 总字符数 平均字符数 字符数标准差
总计 905,342 9.00141e+08 994.255 6719.46 5.61243e+09 6199.24 41099.6
科学 640,313 8.49585e+08 1326.83 7932.88 5.27754e+09 8242.13 48478.3
药物 233,960 2.44849e+07 104.654 647.2 1.63167e+08 697.415 4332.35
临床 16,100 1.75665e+07 1091.08 1290.35 1.15255e+08 7158.72 8430.4
百科 9,957 6.53102e+06 655.923 1252.04 4.32721e+07 4345.89 8209.94
教育 22 1.71519e+06 77963.1 47413.5 1.16235e+07 528341 321525
问答 275 111,792 406.516 264.436 626,549 2278.36 1402.57
法规 1,111 70,081 63.0792 54.7356 478,447 430.645 365.089
医学 2,152 42,460 19.7305 13.3516 280,626 130.402 92.0109
对话 1,452 34,044 23.4463 73.5192 188,202 129.616 394.801

按文档类型统计(指令微调数据)

类型 文档数量 总词数 平均词数 词数标准差 总字符数 平均字符数 字符数标准差
总计 22,390 1.78385e+06 79.6716 59.3966 1.17989e+07 526.971 372.088
问答 22,390 1.78385e+06 79.6716 59.3966 1.17989e+07 526.971 372.088

按数据源统计(微调数据,前五名)

数据源 文档数量 总词数 平均词数 词数标准差
总计 905,342 9.00141e+08 994.255 6719.46
WMT16 587,563 6.49552e+06 11.055 5.40785
HAL 26,987 7.03474e+08 26067.1 26603.8
EMEA_V3 222,937 4.44909e+06 19.9567 15.5252
BDPM 11,023 2.00358e+07 1817.63 2409.58
HAS 11,334 9.61734e+07 8485.39 16098.9

按数据源统计(指令微调数据)

数据源 文档数量 总词数 平均词数 词数标准差
总计 22,390 1.78385e+06 79.6716 59.3966
MEDIQAL 19,907 1.6593e+06 83.3526 61.6255
FRENCHMEDMCQA 2,483 124,547 50.1599 19.6412

文件组织

PARCOMED_research_only/ ├── finetuning/ # 微调数据文件 (.parquet) ├── instruction-tuning/ # 指令微调数据文件 (.parquet) └── README.md

使用方法

python from datasets import load_dataset

加载微调数据

data_finetune = load_dataset("HealthDataHub/PARCOMED_research_only", split="train", data_dir="finetuning")

加载指令微调数据

data_instruct = load_dataset("HealthDataHub/PARCOMED_research_only", split="train", data_dir="instruction-tuning")

贡献者

该数据集由 PARTAGES 开发团队协作创建,特别感谢以下贡献者:

  • Armand VIOLLE, Stéphane OHAYON, Chaïma ABDELLAOUI, Xavier TANNIER (LIMICS, Sorbonne Université)
  • Aidan MANNION, Cécile MACAIRE, Didier SCHWAB, Lorraine GOEURIOT, François PORTET (LIG, Université Grenoble Alpes, CNRS, Grenoble INP)
搜集汇总
数据集介绍
main_image_url
构建方式
在法语生物医学数据稀缺的背景下,PARCOMED_research_only数据集通过系统整合多元来源构建而成。其构建过程始于对广泛公开资源的严格筛选,涵盖临床病例、科学文献、法规文档及教育资料等八个类别,并逐一核实了每项数据的许可协议,确保完全符合研究用途。随后采用受FlauBERT启发的文本清洗流程,包括Unicode标准化、冗余字符移除及URL清理,并增设了最低词数过滤以提升内容质量。为进一步保证数据独特性,构建者应用了基于MinHash的经典去重方法,设定0.85的相似度阈值,有效消除了跨源文档间的冗余,最终形成了结构清晰、权责分明的法语医学语料库。
特点
该数据集最显著的特征在于其严谨的许可合规性与丰富的类型覆盖。所有收录数据均经过细致的法律审查,明确标注为仅供研究使用,为学术探索提供了坚实的法律基础。数据内容跨越临床、对话、教育、百科、医疗、药品、问答、法规及科学九大文档类型,囊括了从E3C临床病例到维基百科医学条目等二十余种来源,呈现出多维度、多层次的法语医学知识体系。数据集以两种配置呈现:微调配置包含逾90万条文本,侧重于原始语料;指令调优配置则包含约2.2万条结构化问答对,每条均配有指令、输入与标准输出字段,为模型的有监督训练提供了直接支持。
使用方法
为便利研究者使用,数据集采用模块化文件组织方式,依据用途分为微调与指令调优两个独立目录,均以Parquet格式存储。用户可通过Hugging Face的load_dataset函数直接加载,指定数据集名称、分割方式及数据目录参数即可获取相应配置。例如,加载微调数据需将data_dir参数设为'finetuning',而指令调优数据则对应'instruction-tuning'路径。这种设计允许用户根据具体任务灵活选择数据子集,无论是用于语言模型的持续预训练、领域适应性微调,还是构建具备指令遵循能力的专业医学模型,都能从中获得高质量、结构化的法语生物医学文本支持。
背景与挑战
背景概述
在自然语言处理领域,法语生物医学数据的稀缺性长期制约着多语言大模型在专业垂直领域的应用与发展。为应对这一挑战,PARCOMED_research_only数据集应运而生,由法国研究团队如LIMICS与LIG等机构合作构建,并于近期公开发布。该数据集致力于解决法语生物医学文本资源的匮乏问题,通过系统整合临床病例、科学文献、法规文档、问答对及对话记录等多种类型的语料,旨在为法语医学语言模型的微调与指令调优提供高质量、多样化的训练基础。其严谨的版权筛选机制确保了数据在学术研究中的合规使用,显著推动了法语医学自然语言处理技术的进步,并为后续的商业化版本奠定了坚实的数据基石。
当前挑战
构建PARCOMED_research_only数据集面临多重挑战。在领域问题层面,法语医学文本的异构性与专业性要求模型具备深度的领域知识理解与复杂的语言推理能力,例如从临床叙述中提取关键信息或进行精准的医学问答,这对模型的语义表示与逻辑推断提出了极高要求。在构建过程中,挑战主要集中于数据源的合法整合与质量管控:研究人员需逐一审查各来源的许可协议,确保数据集严格遵循研究用途的版权规范;同时,原始文本在格式、长度与质量上差异显著,需设计精细的清洗流程与去重策略,例如采用基于MinHash的相似度检测以消除冗余,并设定最小词数阈值以过滤低信息量样本,从而保障最终语料库的纯净度与代表性。
常用场景
经典使用场景
在法语生物医学自然语言处理领域,PARCOMED_research_only数据集为大规模语言模型的预训练与指令微调提供了关键资源。该数据集整合了临床病例、科学文献、药品数据库及医学问答等多种文本类型,覆盖了从基础医学知识到专业诊疗场景的广泛内容。研究人员常利用其微调配置进行领域自适应预训练,以提升模型在法语医学文本上的理解和生成能力;同时,其指令微调配置支持构建面向医疗问答、临床决策辅助等任务的对话系统,为法语医疗人工智能的发展奠定了数据基础。
解决学术问题
该数据集有效缓解了法语生物医学文本资源匮乏的瓶颈问题,为跨语言医疗自然语言处理研究提供了标准化语料。通过严谨的版权筛选与去重处理,它确保了数据在学术研究中的合法性与质量,支持了医疗实体识别、文本分类、机器翻译及问答系统等多项核心任务。其多源异构的结构设计促进了模型泛化能力的研究,助力解决医疗领域中的低资源语言处理挑战,推动了法语医学人工智能的算法创新与评估基准的建立。
衍生相关工作
围绕该数据集,学术界已衍生出一系列经典研究工作,例如基于其微调数据开发的法语医学语言模型(如DrBERT的后续变体),以及在指令微调数据上构建的医疗问答系统评估框架。这些工作不仅验证了数据集在领域自适应预训练中的有效性,还推动了如MediQAl、FRENCHMEDMCQA等专项数据集的整合与扩展。相关研究进一步探索了多任务学习、少样本迁移在医疗文本上的应用,为法语生物医学自然语言处理建立了可复现的实验基准与方法论体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作