genrm-uf-qwen3-4b-angel-judge-llama-3.3-70b-jt07-j200-n200-20250729-121026
收藏Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/RLAIF/genrm-uf-qwen3-4b-angel-judge-llama-3.3-70b-jt07-j200-n200-20250729-121026
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含问题及其两个可能的响应的评价数据集。每个问题由5个评委进行评估,评委们需要给出自己的响应和评分。数据集还记录了评委们的一致性程度和每个响应的获胜次数。数据集分为训练集,共有200个评估案例。
提供机构:
RLAIF
创建时间:
2025-07-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: genrm-uf-qwen3-4b-angel-judge-llama-3.3-70b-jt07-j200-n200-20250729-121026
- 下载大小: 1228435 bytes
- 数据集大小: 3434295 bytes
- 训练集样本数: 200
- 训练集大小: 3434295 bytes
数据结构
特征
- question: 字符串类型,表示问题
- response_1: 字符串类型,表示第一个回答
- response_2: 字符串类型,表示第二个回答
- source: 字符串类型,表示来源
- id: 字符串类型,表示唯一标识符
- original_index: 整型,表示原始索引
- judge_1_response 到 judge_5_response: 字符串类型,表示5位评委的回答
- judge_1_reasoning 到 judge_5_reasoning: 字符串类型,表示5位评委的推理过程
- judge_responses: 字符串列表,表示评委的所有回答
- majority_vote: 字符串类型,表示多数投票结果
- agreement_score: 浮点型,表示一致度分数
- a_votes: 整型,表示A投票数
- b_votes: 整型,表示B投票数
- invalid_votes: 整型,表示无效投票数
- response_1_judge_score: 整型,表示第一个回答的评委分数
- response_2_judge_score: 整型,表示第二个回答的评委分数
- winner: 字符串类型,表示胜者
元数据
- judge_job_id: 字符串类型,表示评委任务ID
- judge_model: 字符串类型,表示评委模型
- judge_temperature: 浮点型,表示评委温度
- num_judges: 整型,表示评委数量
- original_metadata: 字符串类型,表示原始元数据
- response_order: 字符串类型,表示回答顺序
- swap_id: 字符串类型,表示交换ID
数据集结构
- 唯一问题数: 100
- 每个问题的排序: 2种(原始+交换)
- 每次评估的评委数: 5
- 总评估数: 200
- 总评委回答数: 1000
评分摘要
- 回答1胜出次数: 118
- 回答2胜出次数: 82
- 平局次数: 0
评委一致度分布
- 5-0一致: 159/200 (79.5%)
- 4-1强多数: 31/200 (15.5%)
- 3-2微弱多数: 10/200 (5.0%)
投票分布
- 5A-0B: 97次
- 0A-5B: 61次
- 1A-4B: 17次
- 4A-1B: 14次
- 3A-2B: 7次
评委与多数共识一致度
- judge_1: 188/200 (94.0%)
- judge_2: 192/200 (96.0%)
- judge_3: 191/200 (95.5%)
- judge_4: 189/200 (94.5%)
- judge_5: 188/200 (94.0%)
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,数据质量直接影响模型性能的可靠性。该数据集基于100个独特问题构建,每个问题生成两种响应顺序(原始顺序与交换顺序),并采用五名评审员对每个评估进行独立判断,最终形成200条评估记录和1000条评审反馈,通过多轮人工标注与模型协同完成数据采集。
使用方法
该数据集适用于对话系统与生成模型的对比评估研究,用户可通过解析问题与双响应字段进行模型输出质量分析,结合多数投票结果与协议分数验证模型一致性,利用评审理由字段深入理解判断逻辑,并通过元数据追溯实验配置参数以复现评估环境。
背景与挑战
背景概述
人工智能领域中的对话系统评估一直是自然语言处理研究的核心议题,genrm-uf-qwen3-4b-angel-judge-llama-3.3-70b-jt07-j200-n200-20250729-121026数据集于2025年由RLAIF团队构建,旨在通过多评委机制解决生成模型响应质量评估的标准化问题。该数据集整合了先进的大语言模型作为评委,对200组对话响应进行深度评判,其创新性在于采用多数投票机制和一致性评分体系,为生成模型的可靠性评估提供了重要基准,推动了自动化评估方法的发展。
当前挑战
构建该数据集面临双重挑战:在领域问题层面,生成模型响应评估需解决主观性高、标准模糊的难题,确保评判过程的一致性和客观性;在技术实现层面,数据集整合了多个大语言模型作为评委,需协调不同模型的输出偏差,处理高达1000次评判的逻辑一致性,并通过元数据管理维护评估过程的透明度和可复现性。
常用场景
经典使用场景
在自然语言处理领域,该数据集专为评估对话系统响应质量而设计。通过提供成对的候选回答和多位评审员的详细评判,研究人员能够系统比较不同生成模型的输出效果。每个问题对应两个经过顺序调换的响应组合,确保评估的公平性与全面性,为模型优化提供可靠的数据支撑。
解决学术问题
该数据集有效解决了生成模型评估中主观性强、一致性差的学术难题。通过引入多评委机制和多数投票制度,显著提高了评估结果的可靠性与可复现性。其精细的评分结构和元数据记录为研究社区提供了分析评委行为模式和模型偏差的宝贵资源,推动了自动化评估方法的发展。
实际应用
在实际应用中,该数据集可作为企业开发智能客服系统的基准测试工具。科技公司能够依据标准化评估结果选择最优的对话生成模型,提升用户体验。教育机构亦可将其用于教学场景,通过对比分析不同模型的响应质量,帮助学生深入理解自然语言生成技术的实际表现与局限性。
数据集最近研究
最新研究方向
在大语言模型评估领域,该数据集通过多智能体协同评判机制推动了对模型输出质量的精细化评估研究。其采用五法官投票系统与一致性评分框架,为模型响应偏好学习提供了高可信度的标注数据。当前研究聚焦于利用此类数据优化人类偏好对齐算法,特别是在减少标注噪声与提升评判一致性方面。随着强化学习从人类反馈(RLHF)向人工智能反馈(RLAIF)的范式转移,该数据集成为探索自动化评估与自我改进闭环系统的关键基础设施,显著加速了对话系统与生成模型的安全性与可控性研究进程。
以上内容由遇见数据集搜集并总结生成



