genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-jt07-j200-n200-20250729-120427

Name: genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-jt07-j200-n200-20250729-120427
Creator: RLAIF
Published: 2025-07-30 03:06:06
License: 暂无描述

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-jt07-j200-n200-20250729-120427

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题、响应及评委评分的数据集，旨在对两个响应进行评估。数据集包含了200个评估案例，每个案例由5位评委针对两个响应（response_1和response_2）给出评分和理由。数据集还提供了评委的多数投票结果和协议分数，以及每位评委的投票分布和一致性。

提供机构：

RLAIF

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-jt07-j200-n200-20250729-120427
Judge模型: qwen-3-14b
下载大小: 309547 bytes
数据集大小: 1105012 bytes
训练集样本数: 200
训练集字节数: 1105012

数据结构

特征:
- question: 问题文本 (string)
- response_1: 回答1 (string)
- response_2: 回答2 (string)
- source: 来源 (string)
- id: 唯一标识符 (string)
- original_index: 原始索引 (int64)
- judge_1_response 到 judge_5_response: 5位评委的回答 (string)
- judge_1_reasoning 到 judge_5_reasoning: 5位评委的推理过程 (string)
- judge_responses: 评委回答列表 (list[string])
- majority_vote: 多数投票结果 (string)
- agreement_score: 一致分数 (float64)
- a_votes: A票数 (int64)
- b_votes: B票数 (int64)
- invalid_votes: 无效票数 (int64)
- response_1_judge_score: 回答1的评委分数 (int64)
- response_2_judge_score: 回答2的评委分数 (int64)
- winner: 胜者 (string)
- metadata: 元数据 (struct)
  - judge_job_id: 评委任务ID (string)
  - judge_model: 评委模型 (string)
  - judge_temperature: 评委温度 (float64)
  - num_judges: 评委数量 (int64)
  - original_metadata: 原始元数据 (string)
  - response_order: 回答顺序 (string)
  - swap_id: 交换ID (string)

数据集结构

唯一问题数: 100
每个问题的排序: 2种 (原始 + 交换)
每次评估的评委数: 5
总评估次数: 200
总评委回答数: 1000

评分总结

回答1获胜次数: 110
回答2获胜次数: 90

评委一致水平分布

5-0 一致: 189/200 (94.5%)
4-1 强多数: 7/200 (3.5%)
3-2 微弱多数: 4/200 (2.0%)

投票分布

5A-0B: 107次
0A-5B: 82次
1A-4B: 5次
2A-3B: 3次
4A-1B: 2次

评委与多数共识的一致性

judge_1: 195/200 (97.5%)
judge_2: 197/200 (98.5%)
judge_3: 196/200 (98.0%)
judge_4: 197/200 (98.5%)
judge_5: 200/200 (100.0%)

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，该数据集通过精心设计的对比评估框架构建。采用100个独特问题作为基础，每个问题生成两个不同排序的响应组合，确保数据多样性。利用Qwen-3-14B作为裁判模型，以0.7温度参数生成评判结果，每个响应对均经过5位裁判的独立评估，最终形成200个完整评估样本和1000条裁判响应记录。

特点

数据集呈现出高度一致的裁判特性，五位裁判与多数共识的契合度均超过97.5%，其中裁判5达到完美一致。评估结果分布显示94.5%的样本达成 unanimous 共识，反映裁判系统具有卓越的稳定性。数据结构包含完整的裁判推理过程、投票分布统计及元数据信息，为模型行为分析提供多维视角。

使用方法

该数据集适用于大语言模型响应质量评估研究，用户可通过对比response_1和response_2的裁判评分分析模型表现。majority_vote字段提供最终胜负判定，agreement_score反映裁判一致性水平。研究者可深入分析judge_reasoning字段理解裁判逻辑，或利用metadata中的温度参数和排序信息进行控制变量研究。

背景与挑战

背景概述

人工智能对话系统评估领域近年来面临模型响应质量量化标准的重大挑战，genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-jt07-j200-n200-20250729-120427数据集应运而生。该数据集由RLAIF研究团队于2025年构建，专注于通过多评委机制解决对话生成模型的响应质量评估问题。其核心价值在于建立了基于大语言模型的自动化评估框架，通过标准化评判流程为对话系统的优化提供可靠基准，显著推进了人机交互领域评估方法学的科学化进程。

当前挑战

构建过程面临多评委一致性协调的技术难题，需确保五位评委模型在复杂语境下保持评判标准的统一性。领域层面需解决主观性文本质量评估的客观量化问题，包括响应相关性、流畅度和有用性等多维度指标的综合平衡。数据集成过程中还需处理评委模型温度参数设置对评判稳定性的影响，以及原始响应与交换顺序版本间的公平性保障机制，这些挑战共同构成了对话系统评估领域的前沿研究课题。

常用场景

经典使用场景

在大语言模型评估领域，该数据集通过多评委机制构建了高质量的对话响应对比评估框架。其经典使用场景集中于对生成式人工智能模型的输出质量进行细粒度比较，研究人员利用数据集中的问题-响应对和多位评委的详细评判，系统分析不同模型生成文本在相关性、连贯性和有用性等方面的性能差异。

衍生相关工作

基于该数据集衍生的经典工作包括多智能体评估系统的进一步优化研究，以及基于众包评判的模型性能评估框架扩展。这些研究工作深化了对人工智能评委一致性和可靠性的理解，推动了自动化评估工具的开发，并为构建更大规模、更细粒度的语言模型评估数据集奠定了方法论基础。

数据集最近研究