genrm-uf-qwen3-4b-angel-judge-llama-3.1-8b-jt07-j200-n200-20250729-121304

Name: genrm-uf-qwen3-4b-angel-judge-llama-3.1-8b-jt07-j200-n200-20250729-121304
Creator: RLAIF
Published: 2025-07-30 03:14:12
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-llama-3.1-8b-jt07-j200-n200-20250729-121304

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评价问题的多个响应的质量的评估数据集。它包含了问题、响应、评委的评分和理由、投票结果以及一致性得分等信息。数据集由200个评估组成，每个评估包括5位评委的评分和理由。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: genrm-uf-qwen3-4b-angel-judge-llama-3.1-8b-jt07-j200-n200-20250729-121304
存储位置: https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-llama-3.1-8b-jt07-j200-n200-20250729-121304
数据集大小: 3,292,607 字节
下载大小: 1,113,908 字节
示例数量: 200
拆分: train

数据集结构

特征

question: 字符串类型，表示问题
response_1: 字符串类型，表示第一个回答
response_2: 字符串类型，表示第二个回答
source: 字符串类型，表示数据来源
id: 字符串类型，表示唯一标识符
original_index: int64类型，表示原始索引
judge_1_response 到 judge_5_response: 字符串类型，表示5位评委的回答
judge_1_reasoning 到 judge_5_reasoning: 字符串类型，表示5位评委的推理过程
judge_responses: 字符串列表，表示评委的所有回答
majority_vote: 字符串类型，表示多数投票结果
agreement_score: float64类型，表示一致分数
a_votes: int64类型，表示A投票数
b_votes: int64类型，表示B投票数
invalid_votes: int64类型，表示无效投票数
response_1_judge_score: float64类型，表示第一个回答的评委分数
response_2_judge_score: float64类型，表示第二个回答的评委分数
winner: 字符串类型，表示胜者
metadata: 结构体，包含以下子字段：
- judge_job_id: 字符串类型，表示评委任务ID
- judge_model: 字符串类型，表示评委模型
- judge_temperature: float64类型，表示评委温度
- num_judges: int64类型，表示评委数量
- original_metadata: 字符串类型，表示原始元数据
- response_order: 字符串类型，表示回答顺序
- swap_id: 字符串类型，表示交换ID

数据集统计信息

结构统计

唯一问题数量: 100
每个问题的排序: 2（原始 + 交换）
每次评估的评委数量: 5
总评估次数: 200
总评委回答次数: 1000

评分统计

回答1胜出次数: 71
回答2胜出次数: 116
平局次数: 13

评委一致水平分布

5-0 一致: 110/200 (55.0%)
4-1 强多数: 26/200 (13.0%)
3-1 微弱多数: 19/200 (9.5%)
3-2 微弱多数: 24/200 (12.0%)
2-2 微弱多数: 12/200 (6.0%)
2-1 微弱多数: 8/200 (4.0%)
1-1 微弱多数: 1/200 (0.5%)
完全平局: 13 (6.5%)

投票分布

0A-5B: 31 次
0A-4B: 27 次
4A-0B: 21 次
5A-0B: 17 次
1A-3B: 15 次

评委与多数共识的一致性

judge_1: 146/200 (73.0%)
judge_2: 139/200 (69.5%)
judge_3: 142/200 (71.0%)
judge_4: 142/200 (71.0%)
judge_5: 148/200 (74.0%)

评委模型信息

评委模型: llama-3.1-8b

搜集汇总

数据集介绍

构建方式

在人工智能对话评估领域，该数据集采用严谨的多评委机制构建而成。基于100个独特问题生成200个评估样本，每个问题对应原始及顺序调换两种响应排列，并邀请五位评委使用Llama-3.1-8B模型进行独立评判。通过收集1000条评委响应数据，采用多数投票机制计算共识结果，最终形成包含完整评判链条的结构化数据集。

特点

本数据集的核心特征体现在其多维度的评估体系设计。每个样本包含双模型响应对比、五位评委的详细推理过程及投票结果，并附带评委温度参数、任务ID等元数据。数据集中响应B以58%的胜率显著领先，55%的样本达成五比零的绝对共识，评委与主流意见契合度达69%-74%，呈现出良好的评判一致性。

使用方法

该数据集适用于对话系统对比评估与评委模型研究。研究者可分析双模型响应质量差异，探究评委模型的决策模式与一致性特征。通过agreement_score字段可量化评判可靠性，metadata中的温度参数为可控实验提供基础。建议采用交叉验证方式分析不同排列顺序对评判结果的影响，深入探索多评委机制的优化路径。

背景与挑战

背景概述

人工智能领域中的生成模型评估一直是自然语言处理研究的核心议题，该数据集由RLAIF团队于2024年创建，专注于通过多评委机制对生成式回答进行精细化质量评估。其核心研究问题在于解决传统单一评估模式的主观性与不一致性，通过集成五个独立评委的投票与推理过程，为生成模型的响应质量提供更可靠的多角度评判。该数据集的构建推动了自动化评估方法的发展，为生成式人工智能的可靠性研究提供了重要数据支撑。

当前挑战

该数据集致力于解决生成模型响应质量评估中的一致性与客观性难题，其核心挑战包括设计高效的多评委协同机制以降低评估偏差，以及处理不同模型响应之间的细微质量差异。在构建过程中，面临评委模型的一致性校准、大规模人工标注数据的替代方案设计，以及高维评估指标的有效聚合等技术难点，还需确保评估过程在不同问题语境下的泛化能力与可靠性。

常用场景

经典使用场景

在自然语言处理领域的大模型评估中，该数据集通过多评委机制对生成式人工智能的响应质量进行系统化评测。每个问题对应两个候选回答，由五个独立评委模型进行多维度评判，并采用多数投票机制确定优胜回答。这种设计为模型性能对比提供了标准化评估框架，特别适用于对话系统和文本生成模型的基准测试。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于多评委共识的模型融合算法、自动评判系统的优化方法以及评估指标的信度分析研究。其独特的交换排序设计启发了模型偏差检测的新范式，为后续的大模型评估基准构建提供了重要借鉴，推动了整个领域评估方法论的精进。

数据集最近研究