genrm-uf-qwen3-4b-angel-judge-gemma-3-12b-it-jt07-j200-n200-20250729-122052

Name: genrm-uf-qwen3-4b-angel-judge-gemma-3-12b-it-jt07-j200-n200-20250729-122052
Creator: RLAIF
Published: 2025-07-30 03:22:07
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-gemma-3-12b-it-jt07-j200-n200-20250729-122052

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题和两个回应的数据集，每个问题由5个评委进行评估，评估结果包括评委的回应和推理。数据集还记录了评委的一致性分数和胜负分布，以及每个评委与多数共识的一致程度。数据集分为训练集，共有200个样本。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: genrm-uf-qwen3-4b-angel-judge-gemma-3-12b-it-jt07-j200-n200-20250729-122052
模型信息:
- 评判模型: gemma-3-12b-it
- 评判温度: 0.7
数据集大小:
- 下载大小: 1220700 bytes
- 数据集大小: 3194526 bytes
样本数量:
- 总样本数: 200
- 评判总数: 200
- 评判响应总数: 1000

数据结构

特征字段:
- question: 问题文本
- response_1: 响应1
- response_2: 响应2
- source: 数据来源
- id: 唯一标识符
- original_index: 原始索引
- judge_1_response 至 judge_5_response: 评判1至评判5的响应
- judge_1_reasoning 至 judge_5_reasoning: 评判1至评判5的推理
- judge_responses: 评判响应列表
- majority_vote: 多数投票结果
- agreement_score: 一致性分数
- a_votes: A投票数
- b_votes: B投票数
- invalid_votes: 无效投票数
- response_1_judge_score: 响应1的评判分数
- response_2_judge_score: 响应2的评判分数
- winner: 胜者
- metadata: 元数据，包含评判任务ID、评判模型、评判温度等信息
数据分割:
- 训练集: 200个样本，3194526字节

数据集统计

唯一问题数: 100
每个问题的排序数: 2（原始+交换）
每次评估的评判数: 5
总评估数: 200
评判响应总数: 1000

评分摘要

响应1胜出: 74次
响应2胜出: 121次
平局: 5次

评判一致性分布

5-0一致: 151/200 (75.5%)
4-1强多数: 25/200 (12.5%)
3-2窄多数: 11/200 (5.5%)
3-1窄多数: 7/200 (3.5%)
2-1窄多数: 1/200 (0.5%)
2-2窄多数: 2/200 (1.0%)
1-1窄多数: 2/200 (1.0%)
完全平局: 4 (2.0%)

投票分布

0A-5B: 61次
5A-0B: 40次
0A-4B: 28次
1A-4B: 16次
4A-0B: 10次

评判与多数共识对齐

judge_1: 160/200 (80.0%)
judge_2: 170/200 (85.0%)
judge_3: 171/200 (85.5%)
judge_4: 172/200 (86.0%)
judge_5: 174/200 (87.0%)

共识强度指标

高一致性 (≥80%): 176/200 (88.0%)
平均一致性分数: 92.76%

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的比较数据集对模型评估至关重要。该数据集基于100个独特问题构建，每个问题生成两个不同排序的响应对，采用Gemma-3-12B-IT作为评判模型，在温度参数0.7的设置下，通过五轮独立评判机制对每个响应对进行深度评估，最终形成200个样本的完整数据集。

使用方法

该数据集适用于大语言模型的对比评估研究，研究者可通过分析不同响应对的胜率分布和法官一致性指标，评估模型生成质量。数据集提供的详细评判推理可用于训练奖励模型或进行偏好对齐研究，元数据字段则支持深入的实验复现和偏差分析。

背景与挑战

背景概述

随着大语言模型评估需求的日益增长，genrm-uf-qwen3-4b-angel-judge-gemma-3-12b-it-jt07-j200-n200-20250729-122052数据集应运而生，由研究团队于2025年7月创建。该数据集专注于响应质量自动评估，通过多评委机制对模型生成内容进行系统比较，核心研究问题在于提升评估的客观性与一致性，对推动自然语言生成模型的优化与标准化具有重要意义。

当前挑战

该数据集致力于解决大语言模型响应自动评估中的一致性与可靠性问题，面临评委模型自身偏差与标注一致性挑战。构建过程中需协调多评委投票机制，处理响应顺序效应，并确保高协议比例以维持数据质量，技术实现涉及复杂的数据结构与多模型协同评估。

常用场景

经典使用场景

在自然语言处理领域的大模型评估研究中，该数据集通过多评委机制对生成式人工智能的响应质量进行系统化比较。每个问题对应两个候选回答，由五位评委独立评估并给出投票结果与详细推理过程，这种设计能够有效捕捉模型输出的细微差异，为对话系统和文本生成模型的性能优化提供可靠基准。

解决学术问题

该数据集主要解决了生成式模型评估中主观性强和一致性不足的学术难题。通过引入多评委投票机制和一致性评分体系，显著提升了模型对比评估的客观性与可重复性，为学术界提供了标准化的大语言模型性能评估框架，推动了自动评估方法的发展与验证。

实际应用

在实际应用中，该数据集被广泛用于对话系统、智能客服和内容生成平台的模型优化环节。企业研发团队借助其多角度评估结果，精准识别模型生成内容的优势与不足，从而针对性地调整训练策略，提升终端用户的产品体验与满意度。

数据集最近研究