Skywork-Reward-Preference-80K-v0.1

Name: Skywork-Reward-Preference-80K-v0.1
Creator: Skywork
Published: 2024-09-05 15:50:25
License: 暂无描述

Hugging Face2024-09-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Skywork/Skywork-Reward-Preference-80K-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Skywork Reward Preference 80K是一个包含80K偏好对的数据子集，来源于公开数据。该数据集用于训练Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B模型。数据集经过精心筛选，包含高质量的偏好对，并针对特定的能力和知识领域。数据集由多个公开数据源的子样本组成，包括HelpSteer2、OffsetBias、WildGuard和Magpie DPO系列。在数据集的筛选过程中，采用了多种策略以提高性能并平衡各领域，同时不损害整体性能。

提供机构：

Skywork

创建时间：

2024-09-05

搜集汇总

数据集介绍

构建方式

Skywork-Reward-Preference-80K-v0.1数据集是从多个公开数据源中精心筛选出的80,000个偏好对构成的子集。这些数据源包括HelpSteer2、OffsetBias、WildGuard以及Magpie DPO系列数据集。在构建过程中，研究团队采用了多种策略来确保数据的高质量和多样性。例如，从Magpie数据集中独立选择数学、代码等类别的顶级样本，并根据ArmoRM评分进行调整，以优先考虑Magpie-Ultra和Magpie-Pro-Llama-3.1样本。此外，团队还通过训练奖励模型来筛选WildGuard中的样本，确保所选样本的偏好对在奖励模型评分上具有显著差异。

特点

该数据集的特点在于其多样性和高质量。数据集涵盖了多个领域，包括数学、代码、推理和安全等，确保了模型训练的广泛适用性。通过精心筛选和调整，数据集在保持各领域平衡的同时，提升了整体性能。此外，数据集中的每个偏好对都经过严格的评分筛选，确保了所选样本在奖励模型上的表现优于被拒绝的样本，从而提高了模型的训练效果。

使用方法

Skywork-Reward-Preference-80K-v0.1数据集主要用于训练和评估奖励模型，特别是Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B模型。用户可以通过HuggingFace平台下载数据集，并按照提供的训练和评估脚本进行模型训练。在使用过程中，建议用户注意数据集中可能存在的污染样本，特别是在涉及RewardBench评估任务时，推荐使用更新版本的Skywork-Reward-Preference-80K-v0.2数据集。

背景与挑战

背景概述

Skywork-Reward-Preference-80K-v0.1数据集由Skywork团队于2024年发布，旨在为大语言模型（LLMs）的奖励建模提供高质量的训练数据。该数据集包含约80,000个偏好对，主要来源于多个公开数据集，如HelpSteer2、OffsetBias、WildGuard以及Magpie系列数据集。通过精心筛选和组合，Skywork团队构建了这一数据集，以支持Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B等模型的训练。该数据集的发布为大语言模型的奖励建模提供了重要的数据基础，推动了相关领域的研究进展。

当前挑战

Skywork-Reward-Preference-80K-v0.1数据集在构建过程中面临多重挑战。首先，数据集的构建需要从多个来源中筛选出高质量的偏好对，确保数据的多样性和代表性。其次，数据集中的部分样本与RewardBench评估提示存在显著的重叠，导致数据污染问题，影响了模型的评估效果。此外，团队在数据筛选过程中采用了复杂的策略，如基于ArmoRM分数的样本选择和奖励模型的二次筛选，这些策略虽然提升了数据质量，但也增加了数据处理的复杂性。如何在不影响数据多样性的前提下，进一步提升数据的纯净度和模型训练效果，是该数据集面临的主要挑战。

常用场景

经典使用场景

Skywork-Reward-Preference-80K-v0.1数据集主要用于训练和优化大型语言模型（LLMs）的奖励模型。通过提供高质量的偏好对数据，该数据集帮助模型学习如何在不同任务中做出更符合人类偏好的决策。特别是在数学、代码和安全等领域，数据集通过精心筛选的样本，显著提升了模型在这些特定领域的表现。

解决学术问题

该数据集解决了在奖励模型训练中数据质量不均衡和领域覆盖不足的问题。通过从多个公开数据源中精选样本，并结合特定的评分机制，数据集确保了模型在不同能力域上的平衡表现。这一方法不仅提升了模型的整体性能，还为研究者提供了更可靠的训练数据，推动了奖励模型领域的学术研究进展。

衍生相关工作

基于Skywork-Reward-Preference-80K-v0.1数据集，研究者们开发了多个经典模型，如Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B。这些模型在多个基准测试中表现出色，进一步推动了奖励模型的研究和应用。此外，相关技术报告《Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs》也为该领域提供了重要的理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集