LMSYS chatbot_arena_conversations, Tulu3 SFT mixture

Name: LMSYS chatbot_arena_conversations, Tulu3 SFT mixture
Creator: 马里兰大学帕克分校, Kensho, Lambda AI
Published: 2025-05-16 18:11:43
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/lilakk/BLEUBERI

下载链接

链接失效反馈

官方服务：

资源简介：

LMSYS chatbot_arena_conversations数据集包含由真实用户在Chatbot Arena上评估的对话，每个实例包括一个指令、两个模型生成的输出和一个人类偏好标签。Tulu3 SFT mixture数据集包含939K个示例，来自18个数据源，涵盖各种任务。本文中，作者使用了LMSYS chatbot_arena_conversations数据集来评估BLEU指标与人类偏好的一致性，并使用Tulu3 SFT mixture数据集来训练和评估BLEUBERI模型。

LMSYS chatbot_arena_conversations dataset contains conversations evaluated by real users on Chatbot Arena. Each instance consists of an instruction, two model-generated outputs, and a human preference label. The Tulu3 SFT mixture dataset includes 939K examples from 18 data sources, covering a wide range of tasks. In this work, the authors used the LMSYS chatbot_arena_conversations dataset to evaluate the consistency between the BLEU metric and human preferences, and the Tulu3 SFT mixture dataset to train and evaluate the BLEUBERI model.

提供机构：

马里兰大学帕克分校, Kensho, Lambda AI

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集的构建基于高质量的指令遵循数据，通过从Chatbot Arena中筛选900个实例，并结合Tulu3 SFT mixture中的939K示例，形成了一个多样化的数据池。数据选择过程中特别关注了初始BLEU分数较低的“困难”示例，以优化模型在这些挑战性任务上的表现。此外，还使用了多种强大的LLM（如Claude-3.7-Sonnet和GPT-4o）生成合成参考输出，以提高数据的多样性和质量。

特点

该数据集的特点在于其多样性和高质量。数据涵盖了多种任务类型，包括问答、代码生成、写作、数学推理和多语言处理等。通过使用多种LLM生成的合成参考输出，数据集能够提供丰富的上下文和多样化的响应模式。此外，数据集中特别筛选的“困难”示例使得模型能够在更具挑战性的任务上进行优化，从而提升整体性能。数据集的另一个显著特点是其高效性，通过使用BLEU等简单的字符串匹配指标作为奖励信号，避免了训练复杂奖励模型的高成本。

使用方法

该数据集的使用方法主要包括以下几个步骤：首先，从数据池中筛选出初始BLEU分数较低的“困难”示例；然后，使用Group Relative Policy Optimization (GRPO)算法，以BLEU作为奖励函数对预训练的基础语言模型进行微调；最后，在多个指令遵循基准（如MT-Bench、ArenaHard和WildBench）上评估模型的性能。此外，还可以通过结合其他参考基于的指标（如BERTScore）来进一步优化模型。数据集的使用不仅限于单一模型，还可以扩展到不同规模和架构的语言模型，以验证其广泛适用性。

背景与挑战

背景概述

LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集是近年来在自然语言处理领域备受关注的两个重要数据集，旨在解决大型语言模型（LLM）与人类偏好对齐的核心问题。该数据集由马里兰大学、Kensho和Lambda AI等机构的研究团队于2025年创建，主要研究人员包括Yapei Chang、Yekyung Kim等。其核心研究问题聚焦于如何利用简单的基于参考的指标（如BLEU）替代昂贵的奖励模型，以实现LLM的高效对齐。这一创新方法在指令跟随任务中展现出与人类偏好高度一致的表现，为LLM对齐领域提供了新的研究思路和技术路径。

当前挑战

该数据集面临的主要挑战包括两个方面：首先，在领域问题层面，如何确保BLEU等简单指标能够准确捕捉复杂、开放式任务的多样性和创造性，例如创意写作等缺乏单一标准答案的场景；其次，在构建过程中，获取高质量参考输出的成本可能超过收集人类偏好数据的成本，且不同参考模型生成的输出质量差异显著，这为数据集的构建带来了挑战。此外，平衡多个对齐标准（如帮助性、无害性和事实性）也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集在自然语言处理领域被广泛应用于评估和优化大型语言模型（LLM）的指令遵循能力。这些数据集通过提供多样化的对话和指令-响应对，成为研究模型在开放域任务中表现的重要基准。特别是在强化学习对齐（RL-based alignment）研究中，它们被用于验证BLEU等简单字符串匹配指标能否替代传统奖励模型，从而降低对齐成本。

实际应用

在实际应用场景中，基于该数据集训练的BLEUBERI模型展现出与奖励模型指导的RL相媲美的性能。在ArenaHard、WildBench等现实用户查询构成的挑战性基准测试中，优化BLEU的模型不仅保持了对指令的准确遵循，还产生了更具事实依据的响应。这种轻量级方法特别适合资源受限的应用环境，如边缘设备部署或需要快速迭代的对话系统开发。

衍生相关工作

该研究催生了多个重要衍生工作：1) 验证了GRPO算法在非数学推理任务中的普适性；2) 启发了对BERTScore等其他参考指标作为奖励函数的探索；3) 推动了RLVR（可验证奖励强化学习）在开放域任务中的应用。后续研究如Qwen3技术报告直接受其启发，采用困难样本选择策略提升模型性能，形成了一条不依赖人类偏好监督的新技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集