genrm-uf-qwen3-4b-angel-judge-qwen-3-32b-jt07-j200-n200-20250729-120718
收藏Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-32b-jt07-j200-n200-20250729-120718
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含问题和两个响应的数据集,每个问题由五个评判者进行评估,评判者需要给出自己的评分和理由。数据集包含200个评估案例,每个案例都包括问题的原始和交换后的顺序。评分概况显示,大多数情况下评判者之间有一致的意见,少数情况下存在分歧。
提供机构:
RLAIF
创建时间:
2025-07-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-32b-jt07-j200-n200-20250729-120718
- Judge模型: qwen-3-32b
- 下载大小: 356457字节
- 数据集大小: 1166050字节
- 训练集样本数: 200
- 唯一问题数: 100
- 每个问题的排序: 2(原始+交换)
- 每次评估的法官数: 5
- 总评估次数: 200
- 总法官响应数: 1000
数据结构
- 特征:
question: 字符串类型response_1: 字符串类型response_2: 字符串类型source: 字符串类型id: 字符串类型original_index: int64类型judge_1_response到judge_5_response: 字符串类型judge_1_reasoning到judge_5_reasoning: 字符串类型judge_responses: 字符串列表majority_vote: 字符串类型agreement_score: float64类型a_votes: int64类型b_votes: int64类型invalid_votes: int64类型response_1_judge_score: int64类型response_2_judge_score: int64类型winner: 字符串类型metadata: 结构体,包含judge_job_id、judge_model、judge_temperature、num_judges、original_metadata、response_order、swap_id
评分总结
- Response 1获胜次数: 107
- Response 2获胜次数: 93
- 平局次数: 0
法官一致性分布
- 5-0一致: 155/200 (77.5%)
- 4-1强多数: 21/200 (10.5%)
- 3-2微弱多数: 24/200 (12.0%)
投票分布
- 5A-0B: 85次
- 0A-5B: 70次
- 2A-3B: 12次
- 3A-2B: 12次
- 1A-4B: 11次
法官与多数共识的一致性
- judge_1: 190/200 (95.0%)
- judge_2: 188/200 (94.0%)
- judge_3: 187/200 (93.5%)
- judge_4: 182/200 (91.0%)
- judge_5: 184/200 (92.0%)
最终数据集保存路径
/Users/nathan/Developer/work/sutro-batch/sutro_batch/projects/genrm_ultrafeedback/data/final_dataset_angel_20250729_120715.json
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,该数据集采用严谨的多评委机制构建而成。基于100个独特问题生成两个响应顺序版本,每个问题由五个独立评委使用Qwen-3-32B模型进行并行评估,评委温度参数设置为0.7以保证评判稳定性。通过记录每个评委的详细推理过程和投票结果,最终采用多数投票机制确定胜出响应,并计算共识度指标以确保数据可靠性。
特点
该数据集最显著的特征在于其多维度的评估体系,不仅包含原始问题和双模型响应,还完整保留了五位评委的独立判断依据和推理链条。数据集中特别设计了响应顺序交换实验,有效消除了位置偏差对评估结果的影响。高达77.5%的 unanimous 共识率体现了评判结果的高度一致性,而每个评委与多数共识90%以上的对齐率则验证了评估系统的稳定性。
使用方法
研究人员可借助该数据集进行大语言模型响应质量的量化分析,通过对比不同响应获得的评委投票分布和共识分数,客观评估模型生成内容的质量差异。数据集中的详细推理记录为理解评委决策逻辑提供宝贵素材,支持可解释性人工智能研究。此外,顺序交换实验设计使其特别适用于研究评估过程中的认知偏差,为改进自动评估系统提供实证基础。
背景与挑战
背景概述
人工智能对齐研究领域近年来致力于构建能够准确评估大语言模型输出质量的基准数据集。genrm-uf-qwen3-4b-angel-judge数据集由RLAIF研究团队于2024年7月创建,其核心目标在于通过多评委机制解决模型响应质量评估的标准化问题。该数据集采用通义千问32B版本作为评委模型,通过对200组双响应样本进行五重独立评估,建立了具有统计学意义的偏好标注体系,为语言模型对齐研究提供了重要的数据支撑。
当前挑战
该数据集主要应对大语言模型输出质量评估中的主观性与一致性难题,具体体现在评委间一致性维持与跨样本评估标准统一化两方面。构建过程中面临多评委协调复杂度高的挑战,需要处理1000次独立评估产生的海量推理数据,并设计有效的多数投票机制来解决评委分歧。数据标注过程中还需克服响应顺序偏差对评估结果的影响,通过原始顺序与交换顺序的双重设计确保评估结果的客观性。
常用场景
经典使用场景
在大语言模型评估领域,该数据集通过多评委机制构建了高质量的对话响应对比评估框架。其经典使用场景体现在对生成式人工智能模型的输出质量进行系统性评测,研究人员利用该数据集的成对响应比较结构,能够科学评估不同模型生成文本在相关性、连贯性和有用性等方面的相对优劣。
解决学术问题
该数据集有效解决了生成式人工智能评估中缺乏可靠人工标注基准的学术难题。通过设计多评委投票机制和严格的质量控制流程,它为研究人员提供了可量化的模型性能评估标准,显著提升了对比评估的统计显著性和结果可信度,对推动大语言模型评估方法的标准化具有重要意义。
衍生相关工作
该数据集衍生出了一系列关于大语言模型评估方法的研究工作。基于其多评委评估框架,研究人员开发了新的一致性检验算法和评估质量优化技术,推动了诸如基于众包评估的模型优化、自动化评估指标设计等方向的发展,为构建更可靠的生成式人工智能评估体系奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



