genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827

Name: genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
Creator: RLAIF
Published: 2025-07-30 03:19:46
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了200个独特问题的评估，每个问题有两个版本（原始和交换后的顺序），每个评估有5名评委参与，总共产生1000个评委响应。数据集中的评分总结显示，响应1获胜62次，响应2获胜77次，平局61次。评委一致性水平从完全一致到平局都有分布，且数据集的协议强度指标显示高协议（≥80%）的样本数为95个。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
数据集地址: https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
Judge Model: qwen-3-4b-base
Judge Temperature: 0.7

数据集结构

特征:
- question: 问题文本
- response_1: 回答1
- response_2: 回答2
- source: 来源
- id: 唯一标识符
- original_index: 原始索引
- judge_1_response 到 judge_5_response: 5位评委的回答
- judge_1_reasoning 到 judge_5_reasoning: 5位评委的推理
- judge_responses: 评委回答列表
- majority_vote: 多数投票结果
- agreement_score: 一致性分数
- a_votes: A票数
- b_votes: B票数
- invalid_votes: 无效票数
- response_1_judge_score: 回答1的评委分数
- response_2_judge_score: 回答2的评委分数
- winner: 胜者
- metadata: 元数据，包含评委任务ID、评委模型、评委温度等
数据量:
- 训练集: 200个样本，1,716,464字节
- 下载大小: 560,693字节
- 数据集大小: 1,716,464字节

数据集统计

唯一问题数: 100
每个问题的排序: 2种（原始+交换）
每次评估的评委数: 5
总评估次数: 200
总评委回答数: 1000

评分摘要

回答1胜出: 62次
回答2胜出: 77次
平局: 61次

评委一致性分布

5-0一致: 92/200 (46.0%)
4-1强多数: 3/200 (1.5%)
3-1窄多数: 15/200 (7.5%)
3-2窄多数: 5/200 (2.5%)
2-1窄多数: 24/200 (12.0%)
2-2窄多数: 4/200 (2.0%)
1-1窄多数: 11/200 (5.5%)
完全平局: 15 (7.5%)

投票分布

0A-0B: 46次
1A-0B: 18次
0A-1B: 18次
0A-2B: 15次
2A-0B: 14次

评委与多数共识的一致性

judge_1: 71/200 (35.5%)
judge_2: 65/200 (32.5%)
judge_3: 58/200 (29.0%)
judge_4: 62/200 (31.0%)
judge_5: 53/200 (26.5%)

共识强度指标

高一致性（≥80%）: 95/200 (47.5%)
平均一致性分数: 66.08%

搜集汇总

数据集介绍

构建方式

在人工智能对话评估领域，该数据集采用严谨的多评委机制构建而成。基于100个独特问题生成200对回答组合，每个问题对应原始及顺序调换两种排列方式。通过Qwen-3-4B基础模型作为核心评委，设置0.7温度参数控制生成多样性，每个回答对均由5位独立评委进行并行评估，最终收集1000条评委响应数据。

使用方法

研究人员可借助该数据集开展对话系统对比评估研究，通过分析多数投票结果与个体评委推理的差异，深入理解模型评估行为模式。数据集内置的一致性评分机制允许量化评估可靠性，而丰富的元数据支持控制变量分析。典型应用场景包括构建评估模型训练集、分析评委模型偏差特性以及开发新型共识算法，为对话系统评估提供基准测试框架。

背景与挑战

背景概述

在大语言模型评估领域，生成响应质量的人工评估一直存在主观性强、可复现性低的瓶颈。genrm-uf-qwen3-4b-angel-judge数据集由RLAIF团队于2024年7月构建，采用Qwen-3-4B-base作为裁判模型，通过多轮投票机制对200组模型响应进行偏好判断。该数据集创新性地引入五裁判加权投票体系与一致性评分指标，为对话系统与强化学习人类反馈（RLHF）领域提供了标准化评估范式，显著提升了自动化评估的可靠性与效率。

当前挑战

该数据集致力于解决生成模型响应质量评估中的主观偏差问题，其核心挑战在于构建高一致性的自动化评估体系。具体难点包括：多裁判投票机制中的共识度量化、模型偏好与人类偏好的对齐验证，以及跨领域问题的泛化性保障。在构建过程中需克服裁判模型自身偏差对投票结果的影响，处理响应顺序效应导致的评估偏移，并确保大规模评判中 metadata 追踪的完整性，这些挑战直接影响评估结果的科学性与可复现性。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集通过多评委机制对模型生成回复进行系统性比较。每个问题对应两个候选回复，由五位评委独立评估并给出投票结果与推理过程，最终通过多数投票机制确定优胜回复。这种设计能够有效捕捉语言模型在开放性问答中的表现差异，为模型优化提供细粒度反馈。

解决学术问题

该数据集解决了语言模型评估中主观性强、一致性差的学术难题。通过引入多评委共识机制和量化评分体系，显著提升了评估结果的可靠性和可复现性。其创新的协议分数计算方法和投票分布统计，为研究社区提供了衡量模型输出质量的标准化框架，推动了对话系统评估方法论的发展。

实际应用

在实际应用中，该数据集可作为语言模型竞赛的基准测试平台，帮助开发者客观比较不同模型的对话能力。企业可依据其评估结果选择最适合的对话系统部署方案，教育机构也能借助该数据集训练更精准的自动评分模型。其多评委设计尤其适合需要高可靠性评估的关键应用场景。

数据集最近研究