genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110

Name: genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110
Creator: RLAIF
Published: 2025-07-30 03:03:05
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个评估响应质量的数据集，包含问题、两个候选响应、评委的评分和反馈理由，以及评委投票的一致性指标。数据集由200个独立问题的评估组成，每个评估由5位评委完成，共计1000个评委响应。数据集旨在研究评委间的一致性和响应的优劣。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110
下载大小: 1502432 bytes
数据集大小: 3815940 bytes
训练集样本数: 200
特征数量: 25

数据集结构

特征列表:
- question: 字符串类型
- response_1: 字符串类型
- response_2: 字符串类型
- source: 字符串类型
- id: 字符串类型
- original_index: int64类型
- judge_1_response 至 judge_5_response: 字符串类型
- judge_1_reasoning 至 judge_5_reasoning: 字符串类型
- judge_responses: 字符串列表
- majority_vote: 字符串类型
- agreement_score: float64类型
- a_votes, b_votes, invalid_votes: int64类型
- response_1_judge_score, response_2_judge_score: int64类型
- winner: 字符串类型
- metadata: 结构体，包含judge_job_id, judge_model, judge_temperature, num_judges, original_metadata, response_order, swap_id

数据集详情

唯一问题数: 100
每个问题的排序: 2种（原始+交换）
每次评估的评委数: 5
总评估次数: 200
总评委响应数: 1000

评分总结

Response 1胜出次数: 113
Response 2胜出次数: 87

评委一致性分布

5-0一致: 134/200 (67.0%)
4-1强多数: 41/200 (20.5%)
3-2微弱多数: 25/200 (12.5%)

投票分布

5A-0B: 74次
0A-5B: 60次
4A-1B: 22次
1A-4B: 19次
3A-2B: 17次

共识强度指标

高一致性（≥80%）: 175/200 (87.5%)
平均一致性分数: 90.90%

评委模型信息

评委模型: qwen-3-14b-thinking
评委温度: 0.7

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，该数据集通过精心设计的对比评估框架构建。基于100个独特问题，每个问题生成两种模型回应并采用顺序交换策略以消除偏差，随后由五个独立评判员使用Qwen-3-14B模型进行多轮推理评估。评估过程采用0.7的温度参数以平衡创造性与一致性，最终通过多数投票机制确定胜出回应，并计算共识度指标以确保评估结果的统计可靠性。

特点

该数据集最显著的特征在于其多层次评估结构，包含原始问题、双模型回应、五组评判反馈及元数据标注。每个样本不仅记录评判结果，更完整保留评判员的推理过程与投票分布，使得数据集具备高度可解释性。通过共识强度指标和投票分布统计，能清晰展现模型回应的优劣差异与评判一致性，为深入研究模型行为提供丰富维度。

使用方法

研究人员可利用该数据集进行模型性能基准测试，通过对比胜出率分析模型优劣。多评判员设计支持可靠性验证研究，而详细推理记录可用于训练评判模型或分析评判逻辑。数据集中的顺序交换数据有助于研究位置偏差，共识指标则为评估结果可信度提供量化依据，适用于模型优化、评估方法改进及人工智能对齐研究等多个方向。

背景与挑战

背景概述

生成式人工智能评估领域近年来面临模型输出质量量化的重要挑战，genrm-uf-qwen3-4b-angel-judge数据集应运而生。该数据集由人工智能研究机构于2025年构建，专注于通过多评委机制对语言模型生成内容进行系统性评估。其核心研究在于解决生成文本质量评判的标准缺失问题，通过结构化标注体系为模型优化提供可靠基准，显著推进了对话系统与文本生成模型的可解释性研究进程。

当前挑战

该数据集主要应对生成模型输出质量评估中的主观性与一致性难题，具体体现在评委间判断标准差异导致的评分分歧。构建过程中需克服多轮标注协调、评委模型参数优化与数据平衡等关键技术障碍，特别是在保证200个样本的五重评委标注一致性方面面临严峻挑战。数据集的投票分布特征表明，即便采用高标准评委模型，仍存在12.5%的边界案例需要更精细的评判框架。

常用场景

经典使用场景

在大语言模型评估领域，该数据集通过多评委机制对模型生成响应的质量进行系统化比较。每个问题配备两个候选响应，由五个独立评委进行盲审评分，最终通过多数投票机制确定优胜响应。这种设计有效模拟了真实场景中人类对文本质量的综合判断过程，为模型性能评估提供了可靠基准。

衍生相关工作

该数据集的评估方法论催生了系列重要研究，包括基于多评委共识的模型微调技术、评估偏差校正算法以及自动化评估体系构建。这些工作显著提升了模型评估的效率和可靠性，为构建更稳健的大语言模型评估生态系统奠定了坚实基础。

数据集最近研究