CheemsBench, CheemsPreference

Name: CheemsBench, CheemsPreference
Creator: 中国科学院软件研究所, 中国科学院大学
Published: 2025-02-24 22:09:45
License: 暂无描述

arXiv2025-02-24 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.17173v1

下载链接

链接失效反馈

官方服务：

资源简介：

CheemsBench是一个专为中文奖励模型设计的全面评价基准，包含1146个来自开源数据集和现实世界人类指令的prompt，每个prompt经过五轮人类驱动的三重比较，并通过图论算法解决标注冲突，生成唯一且一致的partial ranking。CheemsPreference是一个大规模、多样化的中文偏好数据集，通过人类标注和GPT协作标注构建，包含27,861个现实世界的人类指令，旨在为中文奖励模型训练提供监督信号。

CheemsBench is a comprehensive evaluation benchmark specifically designed for Chinese reward models. It contains 1,146 prompts sourced from open-source datasets and real-world human instructions. Each prompt has undergone five rounds of human-driven triple comparisons, and annotation conflicts are resolved via graph theory algorithms to generate unique and consistent partial rankings. CheemsPreference is a large-scale, diverse Chinese preference dataset constructed through human annotation and GPT collaborative annotation, which includes 27,861 real-world human instructions, aiming to provide supervision signals for the training of Chinese reward models.

提供机构：

中国科学院软件研究所, 中国科学院大学

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

CheemsBench 和 CheemsPreference 数据集的构建方式是通过对大量的人类指令和模型生成的响应进行标注和评估。首先，从多个开源数据集中收集了中文指令，并建立了全面的分类系统。然后，为每个指令从各种开源和专有模型中抽取了多个响应。接下来，通过多轮人类驱动的三元组比较，对响应进行偏好排序，并通过图算法解决潜在的标注冲突，生成独特的部分排名。最后，CheemsPreference 数据集还采用了远程监督策略，通过结合人类标注和 GPT 标注，建立了可靠的偏好排名。

特点

CheemsBench 和 CheemsPreference 数据集的特点是规模大、多样性高、高质量。CheemsBench 是一个全面的人类标注的 RM 评估基准，用于验证 RM 是否准确地捕捉和反映人类偏好。CheemsPreference 是一个大规模、多样化的偏好数据集，为训练中文 RM 提供了监督信号，使其能够有效地学习和建模人类偏好。与现有的 RM 资源相比，CheemsBench 和 CheemsPreference 建立在人类监督的基础上，从而更准确地捕捉现实的人类价值观。

使用方法

CheemsBench 和 CheemsPreference 数据集的使用方法是通过评估和训练 RM。CheemsBench 可以用于评估 RM 在中文场景中的性能，而 CheemsPreference 可以用于训练 RM，使其能够更好地捕捉和反映人类偏好。在使用过程中，可以结合开源和专有的模型，以及人类指令和 GPT 标注，以提高数据质量和 RM 的性能。

背景与挑战

背景概述

随着大型语言模型（LLM）的迅速发展，奖励模型（RM）作为确保模型安全、可靠并与人类价值观对齐的关键组件，其重要性日益凸显。然而，现有的奖励模型研究大多集中于英文，且高度依赖合成资源，导致中文奖励模型的发展面临数据集和基准测试的不足。为填补这一空白，Wen等人（2025）构建了CheemsBench和CheemsPreference两个数据集。CheemsBench是一个完全由人工标注的中文奖励模型评估基准，用于验证奖励模型是否能够准确捕捉和反映人类偏好。CheemsPreference是一个大规模、多样化的中文偏好数据集，通过人机协作标注，为中文奖励模型的训练提供监督信号。这两个数据集的创建为中文奖励模型的研究提供了重要的基础，并推动了对中文LLM后训练的深入探讨。

当前挑战

CheemsBench和CheemsPreference的创建面临着多方面的挑战。首先，在中文环境中，缺乏大规模、高质量的偏好数据集和全面的评估基准，导致中文奖励模型的发展滞后于英文。其次，现有的奖励模型主要依赖合成数据，难以准确反映人类的真实偏好。此外，在构建过程中，如何有效地进行人工标注、解决标注冲突、以及确保数据质量等问题，都是需要克服的挑战。最后，CheemsPreference采用了远监督算法，通过结合人工标注和GPT标注来建立可靠的偏好排名，这需要解决GPT标注的不一致性和偏见问题，同时降低人工标注的成本。

常用场景

经典使用场景

CheemsBench数据集主要被用于评估和训练中文奖励模型（RMs），旨在使大型语言模型（LLMs）与人类偏好保持一致。CheemsPreference数据集则用于提供大规模和多样化的偏好数据，支持中文RMs的训练。这两个数据集通过人类监督和协作，确保了数据的质量和真实性，为中文RMs的研究和应用提供了宝贵的资源。

实际应用

CheemsBench和CheemsPreference数据集的实际应用场景包括但不限于：1）评估和改进中文RMs的性能，使其更准确地捕捉和反映人类偏好；2）训练中文RMs，使其能够更好地理解和满足人类需求；3）指导LLMs的后训练，提高其安全性、可靠性和实用性。

衍生相关工作

CheemsBench和CheemsPreference数据集的建立，为中文RMs的研究和应用开辟了新的方向。基于这两个数据集，研究人员可以进一步探索中文RMs的构建、评估和应用，推动LLMs与人类偏好的一致性研究。此外，这两个数据集还可以为其他领域的研究提供借鉴和启示，例如，如何构建高质量的人机协作数据集，如何评估和改进人工智能模型的安全性、可靠性和实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集