LMSYS chatbot_arena_conversations, Tulu3 SFT mixture
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://github.com/lilakk/BLEUBERI
下载链接
链接失效反馈官方服务:
资源简介:
LMSYS chatbot_arena_conversations数据集包含由真实用户在Chatbot Arena上评估的对话,每个实例包括一个指令、两个模型生成的输出和一个人类偏好标签。Tulu3 SFT mixture数据集包含939K个示例,来自18个数据源,涵盖各种任务。本文中,作者使用了LMSYS chatbot_arena_conversations数据集来评估BLEU指标与人类偏好的一致性,并使用Tulu3 SFT mixture数据集来训练和评估BLEUBERI模型。
LMSYS chatbot_arena_conversations dataset contains conversations evaluated by real users on Chatbot Arena. Each instance consists of an instruction, two model-generated outputs, and a human preference label. The Tulu3 SFT mixture dataset includes 939K examples from 18 data sources, covering a wide range of tasks. In this work, the authors used the LMSYS chatbot_arena_conversations dataset to evaluate the consistency between the BLEU metric and human preferences, and the Tulu3 SFT mixture dataset to train and evaluate the BLEUBERI model.
提供机构:
马里兰大学帕克分校, Kensho, Lambda AI
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集的构建基于高质量的指令遵循数据,通过从Chatbot Arena中筛选900个实例,并结合Tulu3 SFT mixture中的939K示例,形成了一个多样化的数据池。数据选择过程中特别关注了初始BLEU分数较低的“困难”示例,以优化模型在这些挑战性任务上的表现。此外,还使用了多种强大的LLM(如Claude-3.7-Sonnet和GPT-4o)生成合成参考输出,以提高数据的多样性和质量。
特点
该数据集的特点在于其多样性和高质量。数据涵盖了多种任务类型,包括问答、代码生成、写作、数学推理和多语言处理等。通过使用多种LLM生成的合成参考输出,数据集能够提供丰富的上下文和多样化的响应模式。此外,数据集中特别筛选的“困难”示例使得模型能够在更具挑战性的任务上进行优化,从而提升整体性能。数据集的另一个显著特点是其高效性,通过使用BLEU等简单的字符串匹配指标作为奖励信号,避免了训练复杂奖励模型的高成本。
使用方法
该数据集的使用方法主要包括以下几个步骤:首先,从数据池中筛选出初始BLEU分数较低的“困难”示例;然后,使用Group Relative Policy Optimization (GRPO)算法,以BLEU作为奖励函数对预训练的基础语言模型进行微调;最后,在多个指令遵循基准(如MT-Bench、ArenaHard和WildBench)上评估模型的性能。此外,还可以通过结合其他参考基于的指标(如BERTScore)来进一步优化模型。数据集的使用不仅限于单一模型,还可以扩展到不同规模和架构的语言模型,以验证其广泛适用性。
背景与挑战
背景概述
LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集是近年来在自然语言处理领域备受关注的两个重要数据集,旨在解决大型语言模型(LLM)与人类偏好对齐的核心问题。该数据集由马里兰大学、Kensho和Lambda AI等机构的研究团队于2025年创建,主要研究人员包括Yapei Chang、Yekyung Kim等。其核心研究问题聚焦于如何利用简单的基于参考的指标(如BLEU)替代昂贵的奖励模型,以实现LLM的高效对齐。这一创新方法在指令跟随任务中展现出与人类偏好高度一致的表现,为LLM对齐领域提供了新的研究思路和技术路径。
当前挑战
该数据集面临的主要挑战包括两个方面:首先,在领域问题层面,如何确保BLEU等简单指标能够准确捕捉复杂、开放式任务的多样性和创造性,例如创意写作等缺乏单一标准答案的场景;其次,在构建过程中,获取高质量参考输出的成本可能超过收集人类偏好数据的成本,且不同参考模型生成的输出质量差异显著,这为数据集的构建带来了挑战。此外,平衡多个对齐标准(如帮助性、无害性和事实性)也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
LMSYS chatbot_arena_conversations和Tulu3 SFT mixture数据集在自然语言处理领域被广泛应用于评估和优化大型语言模型(LLM)的指令遵循能力。这些数据集通过提供多样化的对话和指令-响应对,成为研究模型在开放域任务中表现的重要基准。特别是在强化学习对齐(RL-based alignment)研究中,它们被用于验证BLEU等简单字符串匹配指标能否替代传统奖励模型,从而降低对齐成本。
实际应用
在实际应用场景中,基于该数据集训练的BLEUBERI模型展现出与奖励模型指导的RL相媲美的性能。在ArenaHard、WildBench等现实用户查询构成的挑战性基准测试中,优化BLEU的模型不仅保持了对指令的准确遵循,还产生了更具事实依据的响应。这种轻量级方法特别适合资源受限的应用环境,如边缘设备部署或需要快速迭代的对话系统开发。
衍生相关工作
该研究催生了多个重要衍生工作:1) 验证了GRPO算法在非数学推理任务中的普适性;2) 启发了对BERTScore等其他参考指标作为奖励函数的探索;3) 推动了RLVR(可验证奖励强化学习)在开放域任务中的应用。后续研究如Qwen3技术报告直接受其启发,采用困难样本选择策略提升模型性能,形成了一条不依赖人类偏好监督的新技术路线。
以上内容由遇见数据集搜集并总结生成



