ripd-dataset

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/ZDCSlab/ripd-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了用于研究基于LLM的评估流程中Rubric-Induced Preference Drift (RIPD)的基准-目标评估分割。数据集从五个广泛使用的人类偏好数据集中构建，并转换为统一的成对偏好格式。包含四个基准-目标设置，分为帮助性和无害性两类。帮助性设置包括Ultra-Real和Ultra-Creative，无害性设置包括SafeRLHF–RMB和Anthropic–SafeRLHF。数据集结构包括训练、验证和测试分割，每个记录包含提示、两个响应和标签。基准域用于准则开发和验证，目标域用于测量偏好漂移和泛化。数据集适用于评估时间鲁棒性分析、跨域偏好漂移研究、基准-部署泛化研究和对齐流程鲁棒性研究，但不适用于训练通用语言模型。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，基准与目标域之间的偏好漂移现象日益受到关注。RIPD数据集为此类研究提供了结构化基准，其构建过程基于五个广泛使用的人类偏好数据集，通过精心设计的转换流程，将这些异构数据统一为成对偏好格式。研究者从ChatbotArena中提取特定领域子集，分别对应现实世界与创意写作场景，并与UltraFeedback等基准数据集配对，形成了四个明确的基准-目标设置。这种构建方式确保了数据在领域间具有可比性，同时严格划分了用于准则开发的基准域和用于衡量泛化与漂移的目标域，为系统性研究评估流程中的准则诱导偏好漂移奠定了数据基础。

特点

该数据集的核心特征在于其精心设计的基准-目标协议结构，该结构模拟了现实世界中将评估准则从开发环境部署到新领域的过程。数据集涵盖了帮助性与无害性两大关键对齐维度，每个维度下包含多个具体的基准-目标对，例如Ultra-Real与Anthropic–SafeRLHF。尤为突出的是，数据集提供了在两种准则条件下标注的偏好数据：基于标准人工制定准则的“种子”标签，以及基于在基准域上保持合规但在目标域上发生漂移的“偏见”准则标签。这种双重标注体系使得研究者能够以受控方式，深入探究准则诱导的偏好漂移如何影响下游策略模型的训练，为评估管道的鲁棒性分析提供了独特视角。

使用方法

为支持多样化的研究需求，数据集提供了清晰的数据划分与使用指引。每个领域均包含训练、验证和测试三个标准分割，分别用于准则搜索与精炼、准则选择以及最终的RIPD评估。对于涉及策略模型训练的下游实验，数据集额外提供了在`dpo_labeled_*`目录下的标注子集，包含用于模型训练的训练集和用于评估的测试集。研究者可遵循基准-目标协议，仅在基准数据上验证准则编辑，而后在目标域上测量偏好漂移与泛化性能。该数据集主要服务于评估时鲁棒性分析、跨域偏好漂移研究以及对齐管道稳健性评估，而非用于训练通用语言模型。

背景与挑战

背景概述

在大型语言模型评估体系日益重要的背景下，ZDCSlab团队于2026年提出了RIPD数据集，旨在系统研究评估准则诱导的偏好漂移现象。该数据集聚焦于大语言模型作为评判者时，其评估准则在跨域部署中可能引发的隐性偏好偏差问题。通过整合多个广泛使用的人类偏好数据集，如UltraFeedback和ChatbotArena，研究团队构建了统一的成对偏好格式，形成了帮助性和无害性两大核心评估场景。这一工作不仅揭示了评估流程中的潜在脆弱性，也为提升对齐管道的鲁棒性提供了关键实证基础。

当前挑战

该数据集致力于应对大语言模型评估中偏好漂移的量化难题，其核心挑战在于如何精准刻画评估准则在跨域泛化时的系统性偏差。构建过程中的主要困难涉及多源异构数据的标准化整合，需将不同结构和标注方式的原始数据集转化为一致的成对偏好格式。同时，为确保研究的严谨性，需设计严格的基准-目标协议，明确划分开发与部署域，并避免数据泄露，这要求对数据分割与验证流程进行周密设计。

常用场景

经典使用场景

在大型语言模型评估领域，RIPD数据集为研究评估准则诱导的偏好漂移现象提供了标准化的实验框架。该数据集构建了基准域与目标域之间的配对设置，通过统一的成对偏好格式，使研究者能够系统性地分析评估准则在跨域部署时如何引发偏好偏差。经典使用场景包括在基准域上开发并验证评估准则，随后在目标域上测量其泛化性能与偏好漂移程度，从而揭示评估管道中的潜在脆弱性。

衍生相关工作

围绕RIPD数据集，已衍生出多项关注评估安全性与对齐鲁棒性的研究。相关工作包括探究评估准则的对抗性操纵、开发针对偏好漂移的检测方法，以及设计更稳健的强化学习从人类反馈（RLHF）流程。这些研究通常利用该数据集提供的标签数据，如在种子准则与偏见准则下的DPO训练数据，来训练和评估政策模型，进一步推动了自动化评估与模型对齐领域的理论发展。

数据集最近研究