olmo-2-0425-1b-preference-mix

Name: olmo-2-0425-1b-preference-mix
Creator: Allen Institute for AI
Published: 2025-05-01 04:11:09
License: 暂无描述

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/allenai/olmo-2-0425-1b-preference-mix

下载链接

链接失效反馈

官方服务：

资源简介：

OLMo 2 0425 1B偏好混合数据集是一个由多个在策略偏好数据集组成的混合数据集，这些数据集通过一个合成数据生成管道生成。它包括来自不同数据集的复用提示、经过指令遵循过滤的提示、来自WildChat的提示子集、清洁版的Ultrafeedback实例、未在SFT混合中使用的WildChat提示、DaringAnteater的提示、带有指令遵循的Tulu3人物等。这个数据集被用于在OLMo-2-0325-32B-SFT检查点上获得OLMo-2-0325-32B-DPO，包含377.9k个生成对，使用了多种模型。数据集遵循ODC-BY许可，适用于研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2025-04-25

原始信息汇总

OLMo 2 0425 1B Preference Mixture 数据集概述

数据集基本信息

数据集名称: OLMo 2 0425 1B Preference Mixture
许可证: ODC-BY-1.0（部分数据子集适用不同许可证，部分数据仅供非商业用途）
下载大小: 1,229,440,709 字节
数据集大小: 2,321,716,419 字节
训练集样本数: 378,301 条

数据集结构

特征

chosen: 包含以下字段的列表
- content: 字符串类型
- role: 字符串类型
rejected: 包含以下字段的列表
- content: 字符串类型
- role: 字符串类型
chosen_model: 字符串类型
rejected_model: 字符串类型
id: 字符串类型
source: 字符串类型

数据分割

train: 唯一分割

数据集内容

数据来源: 包含多个子集，主要来源于SFT混合数据集、WildChat数据集、Ultrafeedback清理版本、DaringAnteater等。
数据用途: 用于对OLMo-2-0325-32B-SFT检查点进行DPO训练，以生成OLMo-2-0325-32B-DPO模型。
数据量: 377.9k生成对。

生成模型

数据集中的生成对由以下模型生成：

Mistral系列（7B Instruct v0.2, Nemo Instruct 2407）
Tulu系列（2 7B, 2 13B）
Yi系列（34B-Chat, 6B-Chat）
MPT系列（30B Chat, 7B 8k Chat）
Google Gemma系列（2 27B it, 2 9B it）
InternLM2.5系列（20B, 7B, 1.8B）
Falcon 7B
Qwen2.5系列（32B Instruct, 14B Instruct, 7B Instruct）
GPT系列（GPT-4 Turbo, GPT-4o）
Microsoft Phi系列（3 Mini 128k Instruct, 3.5 Mini Instruct）
NuMind NuExtract v1.5

数据处理

过滤: 移除了选定响应中包含日期截止信息的实例。
许可证说明: 数据集包含第三方模型生成的输出数据，这些数据受各自使用条款的约束。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏好数据集对模型微调至关重要。olmo-2-0425-1b-preference-mix通过合成数据生成流程构建，整合了来自SFT混合数据的复用提示、WildChat筛选的指令跟随数据、Ultrafeedback净化版本以及多源对话数据集。采用包括Mistral、Tulu、Yi等17种前沿语言模型生成37.8万对偏好数据，并运用日期截止过滤机制确保数据时效性。

使用方法

作为研究工具，该数据集主要应用于对话模型的直接偏好优化(DPO)。使用者可通过HuggingFace平台获取训练分割数据，每条样本包含优选和劣选响应对及生成模型信息。需要特别关注不同子集对应的许可协议差异，部分数据仅限非商业用途。建议结合OLMo-2-0325-32B-SFT基础模型进行微调实验，但需遵守Ai2负责任使用准则。

背景与挑战

背景概述

OLMo-2-0425-1B-Preference-Mix数据集由AllenAI研究团队构建，旨在为大语言模型的偏好学习提供高质量的训练资源。该数据集整合了多个开源偏好数据集，包括WildChat、Ultrafeedback和Tulu3等，通过合成数据生成流程构建，专门用于基于OLMo-2-0325-32B-SFT模型的直接偏好优化（DPO）。数据集包含37.8万对生成样本，覆盖了从7B到32B参数规模的多种开源模型输出，体现了多模型协同优化的研究趋势。该资源的发布为对话系统、指令微调和强化学习领域提供了重要的基准数据。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题层面，如何准确评估和优化大语言模型在开放域对话中的偏好对齐仍然存在困难，特别是处理多轮对话中的一致性和安全性问题；构建过程层面，数据整合涉及十余种不同许可协议的开源模型输出，需严格遵循各模型的合规要求，同时过滤低质量或包含敏感时间戳的响应也对数据清洗流程提出了较高要求。不同子集间的质量差异和分布不平衡进一步增加了模型训练的复杂度。

常用场景

经典使用场景

在自然语言处理领域，olmo-2-0425-1b-preference-mix数据集为研究者提供了一个丰富的偏好数据集合，特别适用于直接偏好优化（DPO）算法的训练与评估。该数据集通过整合多种来源的生成对，涵盖了广泛的指令遵循场景，使得研究者能够在多样化的语境下优化模型输出。其经典应用包括训练大型语言模型以生成更符合人类偏好的响应，从而提升模型在对话系统、问答任务中的表现。

解决学术问题

该数据集有效解决了自然语言处理中模型输出与人类偏好对齐的关键问题。通过提供大量经过筛选的生成对，研究者能够深入探索如何利用偏好数据优化模型行为。这不仅为偏好学习算法的开发提供了基准，也为理解不同模型在指令遵循、响应质量等方面的差异提供了实证基础。数据集的多源特性进一步促进了跨模型比较研究的开展。

实际应用

在实际应用中，olmo-2-0425-1b-preference-mix数据集为开发高质量对话系统提供了重要支持。基于该数据集训练的模型可应用于智能客服、个性化推荐等场景，显著提升用户体验。同时，数据集中的多样化指令也为教育领域的智能辅导系统开发提供了丰富的训练素材，使系统能够更好地理解并响应用户需求。

数据集最近研究