genrm-uf-qwen3-4b-angel-judge-gemma-3-27b-it-jt07-j200-n200-20250729-122403
收藏Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-gemma-3-27b-it-jt07-j200-n200-20250729-122403
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含问题和对应响应的评估数据集,共有200个样本,每个样本由5个评委进行评估。评委需对两个响应进行评分并给出理由。数据集提供了评委的一致性评分、投票分布以及评委与多数共识的一致性。此外,数据集还包含了问题的原始元数据和响应的排序信息。
提供机构:
RLAIF
创建时间:
2025-07-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: genrm-uf-qwen3-4b-angel-judge-gemma-3-27b-it-jt07-j200-n200-20250729-122403
- Judge Model: gemma-3-27b-it
- Judge Temperature: 0.7
- 总样本数: 200
- 总评委数: 200
- 高一致性样本数 (≥80%): 184
数据结构
特征
- question: 字符串类型
- response_1: 字符串类型
- response_2: 字符串类型
- source: 字符串类型
- id: 字符串类型
- original_index: 整型
- judge_1_response: 字符串类型
- judge_1_reasoning: 字符串类型
- judge_2_response: 字符串类型
- judge_2_reasoning: 字符串类型
- judge_3_response: 字符串类型
- judge_3_reasoning: 字符串类型
- judge_4_response: 字符串类型
- judge_4_reasoning: 字符串类型
- judge_5_response: 字符串类型
- judge_5_reasoning: 字符串类型
- judge_responses: 字符串列表
- majority_vote: 字符串类型
- agreement_score: 浮点型
- a_votes: 整型
- b_votes: 整型
- invalid_votes: 整型
- response_1_judge_score: 整型
- response_2_judge_score: 整型
- winner: 字符串类型
- metadata: 结构体
- judge_job_id: 字符串类型
- judge_model: 字符串类型
- judge_temperature: 浮点型
- num_judges: 整型
- original_metadata: 字符串类型
- response_order: 字符串类型
- swap_id: 字符串类型
数据分割
- train:
- 样本数: 200
- 大小: 2965376字节
数据集统计
数据集结构
- 唯一问题数: 100
- 每个问题的排序: 2 (原始 + 交换)
- 每次评估的评委数: 5
- 总评估数: 200
- 总评委响应数: 1000
评分摘要
- Response 1 获胜次数: 78
- Response 2 获胜次数: 122
评委一致性分布
- 5-0 一致: 151/200 (75.5%)
- 4-1 强多数: 33/200 (16.5%)
- 3-2 微弱多数: 16/200 (8.0%)
投票分布
- 0A-5B: 93次
- 5A-0B: 57次
- 1A-4B: 21次
- 4A-1B: 12次
- 3A-2B: 9次
评委与多数共识的一致性
- judge_1: 188/200 (94.0%)
- judge_2: 189/200 (94.5%)
- judge_3: 190/200 (95.0%)
- judge_4: 180/200 (90.0%)
- judge_5: 186/200 (93.0%)
共识强度指标
- 高一致性 (≥80%): 184/200 (92.0%)
- 平均一致性分数: 93.50%
搜集汇总
数据集介绍

构建方式
在大语言模型评估领域,该数据集采用严谨的多评委机制构建而成。基于100个独特问题生成两种响应顺序,每个问题由5个独立评委进行并行评估,共计产生200次评估和1000条评委响应。评委使用gemma-3-27b-it模型在0.7温度参数下运行,通过多数投票机制确定最终胜出响应,并记录详细的推理过程与一致性评分。
使用方法
该数据集主要服务于大语言模型的对比评估与强化学习训练。研究人员可基于多数投票结果分析模型表现差异,通过评委推理文本深入理解评估逻辑。高一致性样本可作为高质量训练数据,而分歧案例则有助于识别模型弱点。数据集中的元数据为再现评估流程提供完整参数支持,支持跨模型性能基准测试。
背景与挑战
背景概述
大型语言模型评估数据集genrm-uf-qwen3-4b-angel-judge-gemma-3-27b-it-jt07-j200-n200-20250729-122403由人工智能研究团队于2025年构建,专注于对话系统响应质量的精细化评估。该数据集通过多评委机制对模型生成响应进行对比评判,旨在解决自然语言生成领域中长期存在的自动评估可靠性问题。其创新性地采用五评委投票制度和一致性度量体系,为语言模型性能评估提供了新的方法论框架,对推动可解释性人工智能评估标准的发展具有重要影响。
当前挑战
该数据集核心挑战在于解决对话系统响应质量主观评判的标准化难题,需要建立可靠的多评委一致性评估体系。构建过程中面临评委模型选择偏差、温度参数优化、响应顺序效应消除等技术挑战,同时需确保200个样本的五重评审过程中投票机制的统计显著性和结果可复现性。数据集成过程中还需处理不同评委推理逻辑的异构性,以及多数投票机制下边缘案例的合理归类问题。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集通过多评委机制构建了高质量的对话响应对比评估框架。其核心应用场景在于系统化评估不同模型生成回答的质量差异,每个问题配备两个候选响应,并由五个独立评委模型进行多维度评判,最终通过多数投票机制确定优胜响应,为模型性能比较提供可靠基准。
解决学术问题
该数据集有效解决了自然语言生成领域模型输出质量量化评估的难题。通过标准化评估流程和多数共识机制,消除了单一评委的主观偏差,为研究人员提供了可靠的模型对比依据。其创新的协议评分系统和投票分布统计为理解模型行为一致性提供了重要洞察,推动了自动评估方法的发展。
实际应用
在实际应用中,该数据集为商业语言模型开发提供了关键的质量控制工具。企业可依据其评估框架优化对话系统响应质量,教育科技领域能借此构建更精准的自动评分系统,客户服务行业则可通过类似机制训练更符合人类偏好的对话代理,显著提升用户体验和服务效率。
数据集最近研究
最新研究方向
在大语言模型偏好对齐领域,该数据集通过多评委机制与共识强度量化方法,为模型响应评估提供了新颖的基准框架。研究热点集中于利用Gemma-3-27B-It等先进模型作为评判主体,通过五评委投票机制和响应顺序随机化控制,显著提升了偏好标注的可靠性与一致性。高达92%的高共识率与93.5%的平均评委对齐率,为强化学习人类反馈(RLHF)提供了高质量训练数据,推动了对齐技术从单评委主观判断向多评委系统化评估的范式转变,对构建更安全、可控的AI系统具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



