dpo-mmlu-ptbr

Name: dpo-mmlu-ptbr
Creator: Recogna NLP
Published: 2025-08-10 06:50:26
License: 暂无描述

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/recogna-nlp/dpo-mmlu-ptbr

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个葡萄牙语改编的遗传医学问答数据集，它是基于Allen Institute for AI发布的原始数据集改编而成。数据集专注于医学领域，特别是遗传医学，并已经转换为DPO格式，适合用于模型的微调和偏好学习。数据集的结构为JSON格式，每个条目包括问题、正确答案和错误答案。该数据集可用于训练模型以回答遗传医学领域的问题。

提供机构：

Recogna NLP

创建时间：

2025-08-10

搜集汇总

数据集介绍

构建方式

在医学遗传学知识评估领域，该数据集基于Allen AI的原始英文版本，通过GPT-4o模型进行了专业级葡萄牙语本地化翻译。构建过程中不仅完成了术语精准的跨语言转换，还扩展了样本多样性，并创新性地重构为DPO偏好优化格式，每个样本包含医学问题提示、优选答案和拒绝答案的三元组结构。

特点

数据集聚焦医学遗传学专业领域，呈现高质量葡萄牙语医学问答对，其核心特征在于采用直接偏好优化框架。所有样本均经过术语委员会级复核，确保医学术语准确性，且通过负样本构造实现了错误答案的语义对立性，为模型区分正负反馈提供了精准的学习信号。

使用方法

研究者可加载该JSON格式数据集直接应用于DPO训练流程，通过最大化优选答案与拒绝答案的对数概率差来微调语言模型。具体实施时需将prompt字段输入模型，使用chosen和rejected字段构建偏好对损失函数，适用于医疗问答系统的对齐优化和葡萄牙语医学LLM的基准测试。

背景与挑战

背景概述

在医学人工智能研究领域，多语言医学问答系统的开发一直是重要研究方向。dpo-mmlu-ptbr数据集基于艾伦人工智能研究所（AI2）2022年发布的MMLU医学遗传学子集构建，由研究团队通过GPT-4o模型完成葡萄牙语转化工作。该数据集专注于医学遗传学领域的问题回答任务，采用直接偏好优化（DPO）格式重构，旨在推动葡萄牙语医学自然语言处理模型的发展，为拉丁美洲地区的医疗AI应用提供重要数据支撑。

当前挑战

医学专业术语的准确翻译构成主要挑战，特别是遗传学领域特有的专业词汇需要保持概念一致性。数据集构建过程中面临医学知识准确性与语言流畅性的平衡难题，需要确保翻译后的内容既符合医学规范又保持自然语言特征。原始英语数据到葡萄牙语的跨语言迁移需要解决文化差异和表达习惯问题，同时维持DPO格式要求的回答质量对比关系，这对保证后续模型训练效果至关重要。

常用场景

经典使用场景

在医学遗传学教育领域，该数据集为研究者提供了高质量的问答对资源，特别适用于训练和评估人工智能模型在葡萄牙语医学问答任务中的表现。通过精心设计的提示词和对应的优选答案，模型能够学习到精准的医学知识表达方式，为后续的自动答题系统奠定坚实基础。

解决学术问题

该数据集有效解决了医学自然语言处理中跨语言知识迁移的学术难题，特别是针对葡萄牙语医学文献稀缺的问题。通过将英文医学遗传学知识体系转化为葡萄牙语表述，不仅填补了该语言在专业医学语料方面的空白，更为研究多语言医学问答系统的对齐性能提供了重要实验数据支撑。

衍生相关工作

基于该数据集格式，研究者开发了多个医学垂直领域的DPO训练框架，特别是在神经内科和儿科遗传病诊断方面产生了系列突破性研究。这些工作不仅扩展了原始数据集的应用边界，更推动了基于人类偏好的医学语言模型优化方法的发展，为后续的MedDPO等创新算法提供了重要启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集