genrm-uf-qwen3-4b-angel-judge-llama-3.2-3b-jt07-j200-n200-20250729-121511

Name: genrm-uf-qwen3-4b-angel-judge-llama-3.2-3b-jt07-j200-n200-20250729-121511
Creator: RLAIF
Published: 2025-07-30 03:16:19
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-llama-3.2-3b-jt07-j200-n200-20250729-121511

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题及其两个可能的响应的评价数据集，每个评价由5个评委进行打分和评论。数据集包含了200个独特的问题评价，每个问题评价都有问题文本、两个响应文本、评委的打分和评论理由、投票结果、一致性得分等信息。此外，数据集还提供了元数据，如评委的任务ID、模型类型、评委温度等。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: RLAIF/genrm-uf-qwen3-4b-angel-judge-llama-3.2-3b-jt07-j200-n200-20250729-121511
数据集大小: 2450993字节
下载大小: 864860字节
训练集样本数: 200
特征数: 24

数据集结构

特征列表:
- question: 字符串类型
- response_1: 字符串类型
- response_2: 字符串类型
- source: 字符串类型
- id: 字符串类型
- original_index: 整型
- judge_1_response 至 judge_5_response: 字符串类型
- judge_1_reasoning 至 judge_5_reasoning: 字符串类型
- judge_responses: 字符串列表
- majority_vote: 字符串类型
- agreement_score: 浮点型
- a_votes: 整型
- b_votes: 整型
- invalid_votes: 整型
- response_1_judge_score: 浮点型
- response_2_judge_score: 浮点型
- winner: 字符串类型
- metadata: 结构体类型，包含多个子字段

数据集详情

独特问题数: 100
每个问题的排序数: 2（原始+交换）
每次评估的评委数: 5
总评估数: 200
总评委响应数: 1000

评分摘要

响应1胜出: 93次
响应2胜出: 99次
平局: 8次

评委一致性分布

5-0一致: 75/200 (37.5%)
4-1强多数: 49/200 (24.5%)
3-2窄多数: 51/200 (25.5%)
其他情况: 25/200 (12.5%)

评委与多数共识一致性

judge_1: 72.5%
judge_2: 76.0%
judge_3: 78.5%
judge_4: 74.5%
judge_5: 72.5%

数据集摘要

评委模型: llama-3.2-3b
评委温度: 0.7
高一致性样本数（≥80%）: 124
评分摘要: {response_1_wins: 93, response_2_wins: 99, ties: 8}

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的比较数据集对模型评估至关重要。该数据集基于100个独特问题构建，每个问题生成两个不同顺序的响应对，采用五名评审员并行评估机制。评审过程使用llama-3.2-3b模型在0.7温度参数下运行，通过多轮投票产生200个评估样本，最终基于多数表决原则确定胜出响应。

特点

该数据集最显著的特征在于其精细设计的评审架构，包含完整的评审推理链条和投票记录。每个样本均记录五名评审员的详细判断响应和推理过程，并计算共识度分数和投票分布。数据集提供丰富的元数据信息，包括评审任务标识、模型参数和响应顺序等，为深入研究评审行为模式提供了多维度的分析基础。

使用方法

研究人员可借助该数据集进行响应质量评估研究，通过分析评审员的投票模式和推理内容，探索自动评估系统的构建方法。数据集中的共识度分数和投票分布可用于训练偏好模型，而完整的评审元数据支持对评估过程的可解释性分析。使用时应重点关注评审一致性高的样本，以确保研究结论的可靠性。

背景与挑战

背景概述

人工智能对齐领域近年来高度重视语言模型输出的可靠评估机制，genrm-uf-qwen3-4b-angel-judge-llama-3.2-3b-jt07-j200-n200-20250729-121511数据集应运而生。该数据集由RLAIF研究团队于2024年构建，核心目标在于通过多法官投票机制解决生成式语言模型响应质量的客观评判问题。其采用五法官并行评估架构，通过对200组问答对进行多维度人工智慧评判，为模型行为对齐研究提供了重要的基准数据，推动了基于人类反馈的强化学习技术发展。

当前挑战

该数据集致力于解决生成式语言模型响应质量评估中的主观性与一致性问题，面临模型响应偏好标注的模糊性挑战。构建过程中需克服多法官系统意见分歧的技术难点，如数据所示法官与多数共识对齐率仅72.5%-78.5%，且存在3.5%的完全平局情况。同时需确保评估标准的统一性，避免因温度参数设置（0.7）导致的评判波动，并处理原始元数据与响应顺序变换带来的标注复杂性。

常用场景

经典使用场景

在自然语言处理领域，该数据集专为评估对话系统响应质量而构建。通过提供成对的模型回答与多评委标注结果，研究者能够系统性地比较不同生成模型的性能差异。其经典应用场景包括大语言模型的对抗性评估、响应偏好学习以及自动化对话质量评级体系的构建，为模型优化提供量化依据。

衍生相关工作

该数据集衍生了多项重要研究工作，包括基于群体智慧的奖励模型训练框架、多评委一致性优化算法以及响应排序系统的改进。其评估范式被广泛应用于对话系统基准测试集的构建，启发了后续研究者开发更精细的评估指标，推动了人机交互领域向更科学化的评估体系发展。

数据集最近研究