Judgebench-Pro

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/lllp11/Judgebench-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

JudgeBench-Pro 是一个旨在系统研究 LLM-as-a-judge 系统中偏见问题的挑战性基准数据集。它是原始 JudgeBench 数据集的扩展，专门用于评估在偏见干扰下 Judge LLMs 的鲁棒性。数据集包含 1,178 个高质量样本，这些样本来源于通过偏见注入机制生成的更大规模合成数据，旨在诱导模型误判。最终数据集代表了模型因注入偏见而难以做出正确判断的“易错”样本，为识别和减轻自动评估系统中的偏见提供了全面工具。数据集结构包括问题陈述、两个候选回答、注入的偏见内容和真实判断标签。适用于评估 LLM-as-a-judge 系统的鲁棒性以及偏见缓解研究。

创建时间：

2026-02-02

原始信息汇总

JudgeBench-Pro 数据集概述

数据集简介

JudgeBench-Pro 是一个旨在推进对 LLM-as-a-judge 系统中偏见问题进行系统性研究的挑战性基准。它是原始 JudgeBench 数据集的扩展，专门用于评估评判大语言模型在偏见干扰下的鲁棒性。该数据集包含 1,178 个高质量样本，这些样本源自通过偏见注入机制生成的更大规模合成数据池，旨在诱导模型误判。最终数据集代表了模型因注入的偏见而难以做出正确判断的“易错”样本，为识别和减轻自动化评估系统中的偏见提供了一个全面的工具。

数据集结构

数据集包含 1,178 个样本。基于其构建流程，数据侧重于已注入偏见以使评判具有挑战性的成对比较。

question: 提示或问题陈述。
response_A / response_B: 被评估的两个候选回答。
injected_bias: 应用于样本的具体偏见内容或机制。
label: 真实评判标签。
domain: 领域。

数据集来源

代码仓库： https://github.com/Laip11/BiasScope
论文： BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation

用途

直接用途

评估 LLM-as-a-judge 系统： 该数据集旨在评估大语言模型作为评判者时的鲁棒性，特别是其抵抗偏见干扰的能力。
偏见缓解研究： 它作为一个研究工具，帮助社区识别特定的偏见模式，并开发在自动化评估流程中缓解这些偏见的方法。

引用信息

bibtex @inproceedings{ anonymous2026biasscope, title={BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation}, author={Peng Lai, Zhihao Ou, Yong Wang, Longyue Wang, Jian Yang, Yun Chen, Guanhua Chen }, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=QGOw6AU8Lp} }

技术详情

许可证： apache-2.0
标签： LLM-as-a-Judge, Bias
数据规模分类： 1K<n<10K
下载大小： 857471 字节
数据集大小： 5509720 字节
数据拆分： 仅包含一个“test”拆分，包含 1178 个样本。

搜集汇总

数据集介绍

构建方式

在大型语言模型作为评估者的研究领域，JudgeBench-Pro数据集的构建体现了对系统性偏差问题的深度探索。该数据集源自一个通过偏差注入机制生成的更大规模合成数据池，旨在诱导模型产生误判。构建过程聚焦于从这些合成数据中筛选出具有挑战性的样本，最终形成了包含1178个高质量实例的集合。这些样本均属于“易错”类型，即模型因注入的偏差而难以做出正确判断，从而为研究自动化评估系统中的偏差识别与缓解提供了精准的测试基准。

特点

JudgeBench-Pro数据集的核心特征在于其针对性的偏差干扰设计。每个样本均包含一个问题提示、两个待评估的候选回答，以及一个明确标注的注入偏差项和真实判断标签。这种结构化的成对比较格式，使得数据集能够系统地揭示不同偏差类型对模型判断能力的影响。数据集覆盖了多种偏差机制与领域，为分析语言模型作为评估者时的鲁棒性弱点提供了丰富且细致的观察视角，是推动相关领域方法学进步的重要资源。

使用方法

该数据集主要用于评估大型语言模型在扮演评估者角色时，抵抗偏差干扰的鲁棒性。研究人员可直接使用该基准测试集，对不同的LLM-as-a-judge系统进行性能评测，量化其在面对预设偏差时的判断准确率。同时，数据集也为偏差缓解研究提供了实证基础，通过分析模型在特定偏差样本上的失败案例，有助于识别偏差模式并开发相应的去偏差算法，从而提升自动化评估流程的公平性与可靠性。

背景与挑战

背景概述

随着大型语言模型在自动化评估系统中扮演裁判角色的日益普及，其内在偏见问题逐渐成为制约可靠性与公平性的关键瓶颈。JudgeBench-Pro数据集应运而生，由Peng Lai等研究人员于2026年构建，作为JudgeBench的扩展版本，旨在系统化探究LLM-as-a-Judge机制中的偏见干扰现象。该数据集通过精心设计的偏见注入策略，生成了1178个高难度样本，聚焦于模型在偏见诱导下产生误判的脆弱环节，为评估系统的鲁棒性提供了标准化测试基准，推动了自动化评估领域向更公正、更稳健的方向演进。

当前挑战

JudgeBench-Pro致力于解决LLM-as-a-Judge系统中偏见检测与缓解的核心挑战，其首要难题在于如何精准量化模型在面临隐蔽性偏见时的判断偏差，这些偏见往往嵌入于问题表述或候选回答中，导致评估结果失真。数据构建过程中，研究团队需克服合成高质量偏见样本的技术障碍，确保注入的偏见既具有代表性又能有效触发模型错误，同时维持数据集的多样性与平衡性，以全面覆盖不同领域和偏见类型，为后续的偏见识别与修正研究奠定坚实基础。

常用场景

经典使用场景

在大型语言模型作为评估者的研究领域，JudgeBench-Pro数据集被广泛用于系统性地检验模型在偏见干扰下的判断鲁棒性。该数据集通过精心设计的偏见注入机制，构建了包含1178个高质量样本的测试集，每个样本均涉及成对响应比较，其中嵌入了特定偏见内容，旨在模拟模型在复杂评估场景中可能面临的误导性情境。研究者利用这一数据集，能够深入分析模型在自动化评估任务中的偏差表现，为优化评估系统的公正性提供实证基础。

实际应用

在实际应用中，JudgeBench-Pro数据集为开发者和组织提供了关键工具，以测试和提升基于大型语言模型的自动化评估系统的抗偏见能力。例如，在内容审核、教育评分或客户服务响应评估等场景中，该系统可用于检测模型是否因偏见而产生不公正的判断。通过使用该数据集进行基准测试，实践者能够识别评估流程中的薄弱环节，进而调整模型训练或后处理策略，确保评估结果更具一致性和可信度，最终增强AI系统在真实世界部署中的可靠性与公平性。

衍生相关工作

围绕JudgeBench-Pro数据集，已衍生出多项经典研究工作，特别是在偏见检测与缓解领域。例如，相关研究基于该数据集的偏见注入机制，开发了自动化偏见识别框架BiasScope，该系统能够系统性地分析LLM-as-a-Judge评估中的偏差模式。此外，该数据集还激发了针对评估鲁棒性的方法探索，如通过对抗训练或去偏见算法来提升模型在偏见干扰下的判断准确性。这些工作共同推动了评估系统偏见研究的深入，为构建更公正的AI评估生态奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集