five

genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110

收藏
Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个评估响应质量的数据集,包含问题、两个候选响应、评委的评分和反馈理由,以及评委投票的一致性指标。数据集由200个独立问题的评估组成,每个评估由5位评委完成,共计1000个评委响应。数据集旨在研究评委间的一致性和响应的优劣。
提供机构:
RLAIF
创建时间:
2025-07-30
原始信息汇总

数据集概述

基本信息

  • 数据集名称: genrm-uf-qwen3-4b-angel-judge-qwen-3-14b-thinking-jt07-j200-n200-20250729-120110
  • 下载大小: 1502432 bytes
  • 数据集大小: 3815940 bytes
  • 训练集样本数: 200
  • 特征数量: 25

数据集结构

  • 特征列表:
    • question: 字符串类型
    • response_1: 字符串类型
    • response_2: 字符串类型
    • source: 字符串类型
    • id: 字符串类型
    • original_index: int64类型
    • judge_1_responsejudge_5_response: 字符串类型
    • judge_1_reasoningjudge_5_reasoning: 字符串类型
    • judge_responses: 字符串列表
    • majority_vote: 字符串类型
    • agreement_score: float64类型
    • a_votes, b_votes, invalid_votes: int64类型
    • response_1_judge_score, response_2_judge_score: int64类型
    • winner: 字符串类型
    • metadata: 结构体,包含judge_job_id, judge_model, judge_temperature, num_judges, original_metadata, response_order, swap_id

数据集详情

  • 唯一问题数: 100
  • 每个问题的排序: 2种(原始+交换)
  • 每次评估的评委数: 5
  • 总评估次数: 200
  • 总评委响应数: 1000

评分总结

  • Response 1胜出次数: 113
  • Response 2胜出次数: 87

评委一致性分布

  • 5-0一致: 134/200 (67.0%)
  • 4-1强多数: 41/200 (20.5%)
  • 3-2微弱多数: 25/200 (12.5%)

投票分布

  • 5A-0B: 74次
  • 0A-5B: 60次
  • 4A-1B: 22次
  • 1A-4B: 19次
  • 3A-2B: 17次

共识强度指标

  • 高一致性(≥80%): 175/200 (87.5%)
  • 平均一致性分数: 90.90%

评委模型信息

  • 评委模型: qwen-3-14b-thinking
  • 评委温度: 0.7
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能模型评估领域,该数据集通过精心设计的对比评估框架构建。基于100个独特问题,每个问题生成两种模型回应并采用顺序交换策略以消除偏差,随后由五个独立评判员使用Qwen-3-14B模型进行多轮推理评估。评估过程采用0.7的温度参数以平衡创造性与一致性,最终通过多数投票机制确定胜出回应,并计算共识度指标以确保评估结果的统计可靠性。
特点
该数据集最显著的特征在于其多层次评估结构,包含原始问题、双模型回应、五组评判反馈及元数据标注。每个样本不仅记录评判结果,更完整保留评判员的推理过程与投票分布,使得数据集具备高度可解释性。通过共识强度指标和投票分布统计,能清晰展现模型回应的优劣差异与评判一致性,为深入研究模型行为提供丰富维度。
使用方法
研究人员可利用该数据集进行模型性能基准测试,通过对比胜出率分析模型优劣。多评判员设计支持可靠性验证研究,而详细推理记录可用于训练评判模型或分析评判逻辑。数据集中的顺序交换数据有助于研究位置偏差,共识指标则为评估结果可信度提供量化依据,适用于模型优化、评估方法改进及人工智能对齐研究等多个方向。
背景与挑战
背景概述
生成式人工智能评估领域近年来面临模型输出质量量化的重要挑战,genrm-uf-qwen3-4b-angel-judge数据集应运而生。该数据集由人工智能研究机构于2025年构建,专注于通过多评委机制对语言模型生成内容进行系统性评估。其核心研究在于解决生成文本质量评判的标准缺失问题,通过结构化标注体系为模型优化提供可靠基准,显著推进了对话系统与文本生成模型的可解释性研究进程。
当前挑战
该数据集主要应对生成模型输出质量评估中的主观性与一致性难题,具体体现在评委间判断标准差异导致的评分分歧。构建过程中需克服多轮标注协调、评委模型参数优化与数据平衡等关键技术障碍,特别是在保证200个样本的五重评委标注一致性方面面临严峻挑战。数据集的投票分布特征表明,即便采用高标准评委模型,仍存在12.5%的边界案例需要更精细的评判框架。
常用场景
经典使用场景
在大语言模型评估领域,该数据集通过多评委机制对模型生成响应的质量进行系统化比较。每个问题配备两个候选响应,由五个独立评委进行盲审评分,最终通过多数投票机制确定优胜响应。这种设计有效模拟了真实场景中人类对文本质量的综合判断过程,为模型性能评估提供了可靠基准。
衍生相关工作
该数据集的评估方法论催生了系列重要研究,包括基于多评委共识的模型微调技术、评估偏差校正算法以及自动化评估体系构建。这些工作显著提升了模型评估的效率和可靠性,为构建更稳健的大语言模型评估生态系统奠定了坚实基础。
数据集最近研究
最新研究方向
在大语言模型评估领域,多评委协同决策机制正成为前沿研究方向。该数据集通过集成五个独立评委模型对双响应进行并行推理,采用多数投票机制生成最终评判结果,显著提升了模型评估的可靠性与一致性。当前研究热点集中于评委模型间的共识强度量化与分歧解析,通过协议分数和投票分布等指标深入探究评委系统的集体智能表现。这一研究方向对构建稳健的自动化评估体系具有深远影响,为大语言模型对齐技术提供了可量化的评估范式,推动人机交互评估向高精度、高可信度方向发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务