Skywork-Reward-Preference-80K-v0.2

Name: Skywork-Reward-Preference-80K-v0.2
Creator: Skywork
Published: 2024-10-12 10:16:53
License: 暂无描述

Hugging Face2024-10-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Skywork/Skywork-Reward-Preference-80K-v0.2

下载链接

链接失效反馈

官方服务：

资源简介：

Skywork Reward Preference 80K数据集是一个包含80K偏好对子集，源自公开数据。该数据集用于训练Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B模型。数据集经过精心策划，包含高质量的偏好对，并针对特定的能力和知识领域。数据集由多个公开数据源的子样本组成，包括HelpSteer2、OffsetBias、WildGuard（对抗性）和Magpie DPO系列。在数据集策划过程中，采用了多种技巧来提高性能并平衡各领域，同时不损害整体性能。

提供机构：

Skywork

创建时间：

2024-10-12

原始信息汇总

Skywork Reward Preference 80K

数据集概述

版本: v0.2
数据集大小: 415,622,390 字节
下载大小: 209,172,624 字节
样本数量: 77,016

数据集结构

特征:
- chosen:
  - content: 字符串类型
  - role: 字符串类型
- rejected:
  - content: 字符串类型
  - role: 字符串类型
- source: 字符串类型

数据集配置

配置名称: default
数据文件:
- train: data/train-*

数据来源

数据混合:
1. HelpSteer2
2. OffsetBias
3. WildGuard (adversarial)
4. Magpie DPO系列:
  - Ultra
  - Pro (Llama-3.1)
  - Pro
  - Air

数据集处理

去污染: 从magpie-ultra-v0.1子集中移除了4,957对与RewardBench评估提示有显著n-gram重叠的样本。
数据选择策略:
1. 在Magpie数据集中独立选择数学、代码等类别的顶级样本，基于ArmoRM分数。
2. 在WildGuard数据集中，使用奖励模型（RM）对所选和拒绝的响应进行评分，并选择所选响应的RM分数高于拒绝响应的RM分数的样本。

搜集汇总

数据集介绍

构建方式

Skywork-Reward-Preference-80K-v0.2数据集的构建过程体现了对高质量数据的严格筛选与优化。该数据集从多个公开数据源中精心挑选了约80K个偏好对，包括HelpSteer2、OffsetBias、WildGuard以及Magpie系列数据集。在数据筛选过程中，采用了基于ArmoRM评分的独立样本选择策略，并对不同子集进行了评分调整，以确保数据的多样性与平衡性。此外，针对WildGuard数据集，通过预训练奖励模型对样本进行评分筛选，进一步提升了数据质量。

使用方法

Skywork-Reward-Preference-80K-v0.2数据集主要用于训练奖励模型，如Skywork-Reward-Gemma-2-27B-v0.2和Skywork-Reward-Llama-3.1-8B-v0.2。用户可通过HuggingFace平台下载数据集，并直接应用于模型训练与评估。在使用过程中，建议优先选择v0.2版本，以避免与RewardBench评估提示的重叠问题。数据集的技术细节与使用方法可参考相关技术报告与GitHub资源。

背景与挑战

背景概述

Skywork-Reward-Preference-80K-v0.2数据集由Skywork团队于2024年发布，旨在为大语言模型（LLMs）的奖励建模提供高质量的训练数据。该数据集包含约80,000个偏好对，主要来源于多个公开数据集，如HelpSteer2、OffsetBias、WildGuard以及Magpie系列。通过精心筛选和组合，Skywork团队确保了数据在数学、代码等特定领域的高质量表现，同时平衡了不同知识域的需求。该数据集的发布为LLMs的奖励模型训练提供了重要支持，特别是在提升模型的安全性和推理能力方面具有显著影响。

当前挑战

Skywork-Reward-Preference-80K-v0.2数据集在构建过程中面临多重挑战。首先，如何从多个来源的数据中筛选出高质量的偏好对，以确保模型在不同领域的表现，是一个复杂的问题。其次，数据去重和去噪处理，特别是避免与评估数据集RewardBench的n-gram重叠，增加了数据清洗的难度。此外，如何在保持数据多样性的同时，确保模型在特定任务上的性能，也是一个需要权衡的挑战。这些问题的解决不仅需要精细的数据处理技术，还需依赖先进的奖励模型进行辅助筛选和优化。

常用场景

经典使用场景

Skywork-Reward-Preference-80K-v0.2数据集在自然语言处理领域中被广泛应用于训练和优化奖励模型。通过精心筛选的偏好对，该数据集能够有效提升模型在特定任务中的表现，特别是在数学、代码和推理等领域的应用。研究人员利用该数据集进行模型训练，以确保模型能够准确识别和选择更优的响应，从而提升整体性能。

解决学术问题

该数据集解决了在奖励模型训练过程中数据质量不均衡和领域覆盖不足的问题。通过从多个公开数据源中精选高质量偏好对，并结合特定的领域知识，Skywork-Reward-Preference-80K-v0.2确保了模型在多个关键领域中的表现。此外，该数据集还通过去除与评估提示显著重叠的样本，避免了数据污染，从而提高了模型评估的准确性和可靠性。

实际应用

在实际应用中，Skywork-Reward-Preference-80K-v0.2数据集被用于训练和优化大型语言模型的奖励机制。例如，该数据集被用于训练Skywork-Reward-Gemma-2-27B-v0.2和Skywork-Reward-Llama-3.1-8B-v0.2模型，这些模型在对话生成、代码生成和数学推理等任务中表现出色。通过使用该数据集，开发者能够构建更加智能和可靠的AI系统，满足多样化的应用需求。

数据集最近研究