xzuyn/mmlu-auxilary-train-dpo
收藏Hugging Face2023-09-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xzuyn/mmlu-auxilary-train-dpo
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
size_categories:
- 10K<n<100K
tags:
- human-feedback
- comparison
- rlhf
- dpo
- preference
- pairwise
---
[MMLU Github](https://github.com/hendrycks/test)
Only used the auxiliary test set. I have not checked for similarity or contamination, but it's something I need to figure out soon.
Has randomized starting messages indicating it's a multiple choice question, and the response needs to be a single letter. For the rejected response I randomly chose an incorrect answer, or randomly chose any answer written out fully and not just a single letter.
This was done to hopefully teach a model how to properly follow the task of answering a multiple choice question, with a restraint of *only* providing a single letter answer, and do so correctly on a quality set.
# Paper: [Measuring Massive Multitask Language Understanding](https://arxiv.org/abs/2009.03300)
```
@article{hendryckstest2021,
title={Measuring Massive Multitask Language Understanding},
author={Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt},
journal={Proceedings of the International Conference on Learning Representations (ICLR)},
year={2021}
}
@article{hendrycks2021ethics,
title={Aligning AI With Shared Human Values},
author={Dan Hendrycks and Collin Burns and Steven Basart and Andrew Critch and Jerry Li and Dawn Song and Jacob Steinhardt},
journal={Proceedings of the International Conference on Learning Representations (ICLR)},
year={2021}
}
```
提供机构:
xzuyn
原始信息汇总
数据集概述
语言
- 英语(en)
数据规模
- 10K<n<100K
标签
- 人类反馈(human-feedback)
- 比较(comparison)
- 强化学习与人类反馈(rlhf)
- 直接偏好优化(dpo)
- 偏好(preference)
- 成对比较(pairwise)
数据集描述
- 仅使用了辅助测试集。
- 包含随机初始消息,指示这是一个多项选择题,响应需要是一个单字母。
- 对于被拒绝的响应,随机选择一个不正确的答案,或者随机选择任何完整写出的答案,而不是仅一个单字母。
- 目的是希望教会模型如何正确地遵循回答多项选择题的任务,仅提供一个单字母答案,并在高质量数据集上正确执行。
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU(大规模多任务语言理解基准)的辅助测试集构建而成。在构建过程中,研究者为每条样本设计了随机化的起始消息,明确指示其为多项选择题,并要求模型仅以单个字母作为回答。对于被拒绝的回答,采用了随机选取错误答案或随机选取任意完整书写答案(而非仅单个字母)的策略。这种设计旨在引导模型学习如何正确遵循多项选择题的作答规范,即在高质量数据集上严格输出单一字母。
使用方法
该数据集适用于偏好学习场景,尤其是DPO算法的训练。使用时,可直接加载HuggingFace上的数据集,将其中的成对样本(chosen与rejected)作为训练输入。建议在训练前检查数据与目标测试集的潜在重叠或污染问题。数据集以英文为主,适合用于微调语言模型以提升其在多项选择题任务上的格式遵循能力与回答准确性。
背景与挑战
背景概述
在自然语言处理领域,评估大型语言模型的多任务理解能力一直是核心研究方向之一。MMLU(Measuring Massive Multitask Language Understanding)数据集由Dan Hendrycks、Collin Burns等研究者于2020年提出,旨在通过涵盖57个学科领域的多项选择题,全面衡量模型的知识广度与推理能力。该数据集的出现,为语言模型的通用智能评估提供了重要基准,推动了后续研究对模型在医学、法律、哲学等专业领域表现的关注。xzuyn/mmlu-auxilary-train-dpo数据集则是对MMLU辅助测试集的再加工,通过构建偏好对(preference pairs)来训练模型遵循指令格式,即仅输出单个字母作为答案,从而提升模型在多项选择题任务中的规范性与准确性。这一工作由独立研究者完成,其核心目标在于利用高质量标注数据优化模型的行为对齐能力,为强化学习与人类反馈(RLHF)领域提供训练资源。
当前挑战
该数据集所解决的领域问题在于,大型语言模型在多项选择题任务中常出现格式偏差,如输出冗长解释或非标准答案格式,导致自动化评估失效。xzuyn/mmlu-auxilary-train-dpo通过构建“正确-错误”偏好对,迫使模型学习严格遵循单字母输出指令,从而提升评估的可靠性与一致性。然而,构建过程面临显著挑战:一是拒绝回答(rejected response)的生成策略需谨慎设计,随机选择错误答案或完整拼写答案可能引入噪声,影响偏好对的质量;二是数据集发布者明确指出未进行相似性或污染检测,这可能导致训练数据与测试集存在重叠,削弱模型泛化能力;三是辅助测试集本身规模有限(10K-100K),如何在小样本条件下有效学习格式约束,对算法设计提出更高要求。
常用场景
经典使用场景
在大型语言模型的对齐与偏好优化研究中,xzuyn/mmlu-auxilary-train-dpo数据集扮演着关键角色。该数据集源自MMLU辅助测试集,经过精心构造,包含随机化起始消息以模拟多选题场景,并要求模型输出单一字母作为答案。其经典使用场景在于利用成对偏好数据,通过直接偏好优化(DPO)算法训练模型,使其在回答多选题时既能遵循格式约束(仅输出字母),又能提升准确性。这一设计有效弥补了原始MMLU数据集在偏好学习方面的空白,为强化学习从人类反馈(RLHF)提供了高质量的对比样本,尤其适用于探究模型在结构化任务中的指令遵循能力与知识掌握之间的平衡。
解决学术问题
该数据集主要解决了大型语言模型在多选题场景中面临的格式服从与正确答案选择之间的冲突问题。学术上,它针对模型常因输出冗长解释而偏离指令,或随机猜测答案导致准确率低下的顽疾,提供了一种通过偏好对比来强化正确行为的研究范式。通过引入正确与错误响应的配对样本,该数据集帮助研究者量化模型对任务约束的敏感度,并探索DPO算法在提升多选题作答质量上的有效性。其意义在于推动了对齐研究从开放式生成向结构化推理的延伸,为理解模型如何内化任务规则提供了可复现的基准,进而影响了后续关于指令微调与偏好学习交叉领域的方法论设计。
实际应用
在实际应用中,xzuyn/mmlu-auxilary-train-dpo数据集可用于开发更可靠的教育评估与考试辅助系统。例如,在自动化阅卷或智能辅导平台中,利用该数据集训练的模型能够严格遵循答题格式,输出简洁的字母选项,同时保持高准确率,从而减少因格式错误导致的误判。此外,该数据集还可用于优化对话式AI在知识问答场景中的行为,确保模型在提供答案时优先考虑精确性而非冗长解释,提升用户体验。在工业界的模型部署中,它有助于降低推理成本——通过强制单字母输出,减少了不必要的token生成,兼顾了效率与性能,尤其适用于资源受限的边缘设备。
数据集最近研究
最新研究方向
基于MMLU辅助测试集构建的偏好对齐数据集,聚焦于通过直接偏好优化(DPO)技术提升大语言模型在多项选择任务中的指令遵循能力。该数据集通过随机生成错误答案构建拒绝样本,旨在训练模型严格输出单一字母答案,从而强化模型对任务约束的遵守。这一研究方向与当前RLHF领域的热点——利用成对偏好数据优化模型行为——紧密呼应,尤其关注在零样本场景下减少幻觉与格式错误。其意义在于为多任务语言理解评估提供了一种轻量级、可复现的对齐训练范式,推动了从纯性能指标向行为可靠性评估的转变。
以上内容由遇见数据集搜集并总结生成



