ALL
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/MedInjection-FR/ALL
下载链接
链接失效反馈官方服务:
资源简介:
MedInjection-FR是一个大规模的法语生物医学指令数据集,旨在研究数据来源对大型语言模型指令微调的影响。它提供了一个统一的基准,用于将大型语言模型适应于法语医学推理、问答和指令遵循任务。数据集包括原生、合成和翻译三个互补的子集,适合用于领域适应、指令遵循和跨语言泛化的研究。
创建时间:
2025-10-23
原始信息汇总
MedInjection-FR 数据集概述
数据集基本信息
- 名称:MedInjection-FR
- 语言:法语
- 领域:生物医学、临床、健康
- 许可证:MIT
- 任务类型:问答任务
- 标签:医学
数据规模
- 总样本量:571,436
- 训练集:500,439 个样本
- 验证集:43,066 个样本
- 测试集:27,931 个样本
- 下载大小:368,711,574 字节
- 数据集大小:737,542,600 字节
数据结构
特征字段
- instruction:指令
- context:上下文
- answer:回答
- type:类型
- origin:来源
数据子集构成
| 子集类型 | 训练集 | 验证集 | 测试集 | 总计 | 来源类型 |
|---|---|---|---|---|---|
| 原生数据 | 57,563 | 5,055 | 14,629 | 77,247 | 专家/原生法语 |
| 合成数据 | 76,506 | — | — | 76,506 | LLM生成 |
| 翻译数据 | 366,370 | 38,011 | 13,293 | 417,674 | LLM翻译 |
| 总计 | 500,439 | 43,066 | 27,931 | 571,436 | — |
任务类型
- MCQ:多项选择题
- MCQU:多项选择题
- OEQ:开放式问题
相关资源
- 原生子集:https://huggingface.co/datasets/MedInjection-FR/Native
- 合成子集:https://huggingface.co/datasets/MedInjection-FR/Synthetic
- 翻译子集:https://huggingface.co/datasets/MedInjection-FR/Translated
- GitHub仓库:https://anonymous.4open.science/r/MedInjection-FR-2F49/README.md
推荐模型
基于该数据集微调的Qwen-4B-Instruct模型:
- https://huggingface.co/MedInjection-FR/QWEN-4B-NAT
- https://huggingface.co/MedInjection-FR/QWEN-4B-TRAD
- https://huggingface.co/MedInjection-FR/QWEN-4B-SYN
- https://huggingface.co/MedInjection-FR/QWEN-4B-NAT-TRAD
- https://huggingface.co/MedInjection-FR/QWEN-4B-NAT-SYN
- https://huggingface.co/MedInjection-FR/QWEN-4B-TRAD-SYN
- https://huggingface.co/MedInjection-FR/QWEN-4B-ALL
使用限制
- 仅用于研究和教育目的
- 不可用于临床诊断或医疗决策
- 部分内容可能反映过时的医学知识
- 合成和翻译内容可能存在不准确之处
- 不包含个人身份信息或患者数据
搜集汇总
数据集介绍

构建方式
在法语生物医学领域知识体系构建中,MedInjection-FR数据集通过三重路径精心构建:原生子集源自法国医学专家手工整理的权威问答资源,确保了专业知识的准确性;合成子集依托GPT-4o等大语言模型对法国临床案例进行智能解析生成问答对,实现了知识扩展;翻译子集则通过多模态大模型将英语生物医学指令数据集精准转化为法语版本,构建了跨语言知识桥梁。这种多源融合的构建策略既保障了数据的专业深度,又实现了规模效应。
使用方法
研究者可通过HuggingFace平台直接加载数据集,利用预划分的训练集、验证集和测试集进行模型训练与评估。该数据集特别适用于指令调优实验,用户可基于不同数据子集(原生、合成、翻译)分别训练模型,系统比较数据来源对法语医学问答性能的影响。建议采用Qwen-4B-Instruct等基础模型配合DoRA适配器进行微调,通过控制变量法探究不同数据组合对模型医学推理能力的提升效果。
背景与挑战
背景概述
在生物医学自然语言处理领域,跨语言模型适应已成为关键研究方向。MedInjection-FR数据集作为大规模法语生物医学指令数据集,由研究团队通过整合本土专家标注、生成式模型合成与跨语言翻译三种数据源构建而成,旨在系统探究数据来源对大型语言模型指令微调效果的影响。该数据集涵盖临床医学、生物学等多学科领域,包含57万余条结构化问答样本,为法语医疗推理与问答任务提供了标准化评估基准,显著推进了法语医疗人工智能的技术发展。
当前挑战
构建过程中面临多重技术挑战:医疗术语的精准翻译需克服跨语言语义对齐难题,生成式模型合成数据时存在事实准确性验证困境,而本土数据收集则受限于专业医学知识的标注成本。在解决领域问题层面,该数据集需应对医疗问答中复杂推理链建模、多模态临床语境理解等核心挑战,同时确保不同数据源间的质量一致性,这对模型泛化能力与领域适应性提出了更高要求。
常用场景
经典使用场景
在法语生物医学自然语言处理领域,该数据集被广泛用于评估大语言模型在医疗问答任务中的表现。研究人员通过其包含的选择题与开放式问答样本,系统测试模型对临床术语理解和医学推理的准确性,为法语医疗AI的基准测试提供了标准化数据支撑。
解决学术问题
该数据集通过整合原生、合成与翻译三类数据源,有效解决了跨语言医学知识迁移的学术难题。其多源数据架构为研究数据溯源对模型性能的影响提供了实验基础,显著推进了法语医疗领域适配性与指令跟随能力的研究进程。
实际应用
该数据集支撑的法语医疗问答模型已在医学教育辅助系统中实现应用,能够为医学生提供即时临床知识解答。其生成的合成数据还可用于增强医疗聊天机器人的语义理解能力,为法语区医疗机构构建智能化问诊平台提供核心技术支持。
数据集最近研究
最新研究方向
在法语生物医学自然语言处理领域,MedInjection-FR数据集正推动多源数据融合的前沿探索。该数据集通过整合专家标注、大模型生成与跨语言翻译三类数据源,系统研究数据来源对指令微调效果的影响。当前研究聚焦于不同数据组合对模型临床推理能力的提升机制,尤其在低资源语言场景下探索领域自适应与指令跟随的协同优化。这一方向不仅填补了法语医学大模型训练的空白,更为多语言医疗人工智能的伦理部署提供了重要基准。
以上内容由遇见数据集搜集并总结生成



