justrank_judge_scores

Hugging Face2025-06-08 更新2025-06-09 收录

下载链接：

https://huggingface.co/datasets/ibm-research/justrank_judge_scores

下载链接

链接失效反馈

官方服务：

资源简介：

JuStRank评估者评分数据集，包含150万条LLM评估者和奖励模型对63个系统在500个问题上的回答给出的质量评分。

创建时间：

2025-05-29

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，系统级评估对大型语言模型的发展至关重要。JuStRank Judge Scores数据集基于Arena Hard v0.1基准构建，汇集了10个LLM评判模型和8个奖励模型对63个生成系统在500个问题上的响应评分。通过四种不同的评判实现方式——数值评分、李克特量表、词元概率和锚点对比法，系统性地收集了150万条评判分数，确保了评估的全面性和多维性。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，并与Arena Hard的问题和系统响应数据合并使用。合并后的数据包含完整的问题文本和系统响应内容，支持端到端的分析流程。该数据集适用于评估LLM评判模型的一致性、偏差分析以及系统排名性能研究，为自然语言处理领域的评估方法提供重要基准。

背景与挑战

背景概述

大型语言模型评估领域近年来面临系统级性能排名的关键挑战，IBM研究团队于2024年创建的JuStRank Judge Scores数据集应运而生。该数据集作为ACL 2025会议论文的核心组成部分，旨在通过构建大规模评判分数集合，系统评估63个生成式模型在Arena Hard v0.1基准测试中的表现。研究者设计了四种不同的评判实现方式，包括数值评分、李克特量表、概率标记和锚点比较方法，为理解LLM评判者的能力偏差提供了重要数据基础，对推动大语言模型评估标准化具有深远影响。

当前挑战

该数据集致力于解决大语言模型系统级排名中的评判可靠性问题，核心挑战在于如何设计有效的提示工程和评分机制来减少评判模型的主观偏差。构建过程中面临多维度挑战：需要协调10个LLM评判者和8个奖励模型对151万条响应进行标准化评分；设计四种不同的评判实现方式时需确保分数体系的可比性；处理锚点比较方法中与GPT-4-0314基准响应的配对比较时面临计算复杂度问题；以及确保大规模数据收集过程中评判一致性和数据质量的控制。

常用场景

经典使用场景

在大语言模型评估领域，JuStRank Judge Scores数据集为研究者提供了系统级性能排名的基准框架。该数据集通过整合63个生成式系统对500个专业问题的响应，结合10种LLM评判模型和8种奖励模型的多元评分机制，构建了包含150万条评判分数的综合数据库。研究者可基于四种不同的评判实现方式（数值评分、李克特量表、概率令牌和锚点对比），系统分析不同评判模型在质量评估中的一致性与偏差特征。

解决学术问题

该数据集有效解决了大语言模型系统评估中缺乏标准化基准的学术难题。通过构建多维度评判体系，它使研究者能够量化分析不同评判模型的系统排名能力、测量评判偏差的来源，并验证跨模型评估的一致性。其意义在于建立了可重复的评估方法论，为LLM评判系统的可靠性研究提供了数据基础，推动了自动评估指标在自然语言生成领域的科学化发展。

实际应用

在实际应用层面，该数据集为人工智能产业提供了模型选型的重要参考依据。企业可依据标准化评判数据选择最适合特定场景的生成模型，开发人员能基于锚点对比方法优化模型输出质量。此外，该数据集支撑的JuStRank排行榜已成为业界评估模型性能的权威平台，为模型部署、性能监控和持续优化提供了数据驱动的决策支持。

数据集最近研究