genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
收藏Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了200个独特问题的评估,每个问题有两个版本(原始和交换后的顺序),每个评估有5名评委参与,总共产生1000个评委响应。数据集中的评分总结显示,响应1获胜62次,响应2获胜77次,平局61次。评委一致性水平从完全一致到平局都有分布,且数据集的协议强度指标显示高协议(≥80%)的样本数为95个。
提供机构:
RLAIF
创建时间:
2025-07-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
- 数据集地址: https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-4b-base-jt07-j200-n200-20250729-121827
- Judge Model: qwen-3-4b-base
- Judge Temperature: 0.7
数据集结构
-
特征:
question: 问题文本response_1: 回答1response_2: 回答2source: 来源id: 唯一标识符original_index: 原始索引judge_1_response到judge_5_response: 5位评委的回答judge_1_reasoning到judge_5_reasoning: 5位评委的推理judge_responses: 评委回答列表majority_vote: 多数投票结果agreement_score: 一致性分数a_votes: A票数b_votes: B票数invalid_votes: 无效票数response_1_judge_score: 回答1的评委分数response_2_judge_score: 回答2的评委分数winner: 胜者metadata: 元数据,包含评委任务ID、评委模型、评委温度等
-
数据量:
- 训练集: 200个样本,1,716,464字节
- 下载大小: 560,693字节
- 数据集大小: 1,716,464字节
数据集统计
- 唯一问题数: 100
- 每个问题的排序: 2种(原始+交换)
- 每次评估的评委数: 5
- 总评估次数: 200
- 总评委回答数: 1000
评分摘要
- 回答1胜出: 62次
- 回答2胜出: 77次
- 平局: 61次
评委一致性分布
- 5-0一致: 92/200 (46.0%)
- 4-1强多数: 3/200 (1.5%)
- 3-1窄多数: 15/200 (7.5%)
- 3-2窄多数: 5/200 (2.5%)
- 2-1窄多数: 24/200 (12.0%)
- 2-2窄多数: 4/200 (2.0%)
- 1-1窄多数: 11/200 (5.5%)
- 完全平局: 15 (7.5%)
投票分布
- 0A-0B: 46次
- 1A-0B: 18次
- 0A-1B: 18次
- 0A-2B: 15次
- 2A-0B: 14次
评委与多数共识的一致性
- judge_1: 71/200 (35.5%)
- judge_2: 65/200 (32.5%)
- judge_3: 58/200 (29.0%)
- judge_4: 62/200 (31.0%)
- judge_5: 53/200 (26.5%)
共识强度指标
- 高一致性(≥80%): 95/200 (47.5%)
- 平均一致性分数: 66.08%
搜集汇总
数据集介绍

构建方式
在人工智能对话评估领域,该数据集采用严谨的多评委机制构建而成。基于100个独特问题生成200对回答组合,每个问题对应原始及顺序调换两种排列方式。通过Qwen-3-4B基础模型作为核心评委,设置0.7温度参数控制生成多样性,每个回答对均由5位独立评委进行并行评估,最终收集1000条评委响应数据。
使用方法
研究人员可借助该数据集开展对话系统对比评估研究,通过分析多数投票结果与个体评委推理的差异,深入理解模型评估行为模式。数据集内置的一致性评分机制允许量化评估可靠性,而丰富的元数据支持控制变量分析。典型应用场景包括构建评估模型训练集、分析评委模型偏差特性以及开发新型共识算法,为对话系统评估提供基准测试框架。
背景与挑战
背景概述
在大语言模型评估领域,生成响应质量的人工评估一直存在主观性强、可复现性低的瓶颈。genrm-uf-qwen3-4b-angel-judge数据集由RLAIF团队于2024年7月构建,采用Qwen-3-4B-base作为裁判模型,通过多轮投票机制对200组模型响应进行偏好判断。该数据集创新性地引入五裁判加权投票体系与一致性评分指标,为对话系统与强化学习人类反馈(RLHF)领域提供了标准化评估范式,显著提升了自动化评估的可靠性与效率。
当前挑战
该数据集致力于解决生成模型响应质量评估中的主观偏差问题,其核心挑战在于构建高一致性的自动化评估体系。具体难点包括:多裁判投票机制中的共识度量化、模型偏好与人类偏好的对齐验证,以及跨领域问题的泛化性保障。在构建过程中需克服裁判模型自身偏差对投票结果的影响,处理响应顺序效应导致的评估偏移,并确保大规模评判中 metadata 追踪的完整性,这些挑战直接影响评估结果的科学性与可复现性。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集通过多评委机制对模型生成回复进行系统性比较。每个问题对应两个候选回复,由五位评委独立评估并给出投票结果与推理过程,最终通过多数投票机制确定优胜回复。这种设计能够有效捕捉语言模型在开放性问答中的表现差异,为模型优化提供细粒度反馈。
解决学术问题
该数据集解决了语言模型评估中主观性强、一致性差的学术难题。通过引入多评委共识机制和量化评分体系,显著提升了评估结果的可靠性和可复现性。其创新的协议分数计算方法和投票分布统计,为研究社区提供了衡量模型输出质量的标准化框架,推动了对话系统评估方法论的发展。
实际应用
在实际应用中,该数据集可作为语言模型竞赛的基准测试平台,帮助开发者客观比较不同模型的对话能力。企业可依据其评估结果选择最适合的对话系统部署方案,教育机构也能借助该数据集训练更精准的自动评分模型。其多评委设计尤其适合需要高可靠性评估的关键应用场景。
数据集最近研究
最新研究方向
在大语言模型对齐评估领域,基于多评委机制的偏好数据集正成为研究热点。该数据集采用Qwen-3-4B-base作为评委模型,通过五重评委投票机制对200组对话响应进行精细评估,展现了46%的 unanimous 一致率与66.08%的平均一致分数,为模型响应质量评估提供了高可靠性标注。此类数据集显著推动了基于人类反馈的强化学习(RLHF)和宪法AI(Constitutional AI)的发展,特别是在评委模型一致性优化、多角度偏好聚合算法以及自动化评估体系构建等前沿方向产生重要影响,为构建更安全、可控的AI系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



