JudgeBench

Name: JudgeBench
Creator: 加州大学伯克利分校
Published: 2024-10-17 01:58:19
License: 暂无描述

arXiv2024-10-17 更新2024-10-18 收录

下载链接：

https://github.com/ScalerLab/JudgeBench

下载链接

链接失效反馈

官方服务：

资源简介：

JudgeBench是由加州大学伯克利分校和圣路易斯华盛顿大学共同创建的一个用于评估基于大型语言模型（LLM）的裁判的基准数据集。该数据集包含350对挑战性响应，涵盖知识、推理、数学和编码四个类别。每对响应中包含一个客观正确的响应和一个客观错误的响应，错误响应设计有细微错误，以增加LLM裁判的区分难度。数据集的创建过程利用了一个新颖的管道，将现有具有客观真实标签和验证算法的数据集转换为适用于LLM裁判的数据集。JudgeBench主要用于评估LLM裁判在复杂任务中的事实和逻辑正确性，旨在解决现有基准在评估复杂任务时依赖于众包人类偏好而忽视事实和逻辑正确性的问题。

JudgeBench is a benchmark dataset for evaluating Large Language Model (LLM)-based judges, jointly created by the University of California, Berkeley and Washington University in St. Louis. The dataset contains 350 pairs of challenging responses spanning four categories: knowledge, reasoning, mathematics, and coding. Each pair consists of one objectively correct response and one objectively incorrect response; the incorrect responses are designed with subtle errors to increase the distinguishing difficulty for LLM-based judges. The dataset creation process leverages a novel pipeline that transforms existing datasets with ground-truth labels and validation algorithms into materials suitable for LLM-based judges. JudgeBench is primarily used to assess the factual and logical correctness of LLM-based judges in complex tasks, aiming to address the issue that existing benchmarks rely on crowdsourced human preferences when evaluating complex tasks while neglecting factual and logical correctness.

提供机构：

加州大学伯克利分校

创建时间：

2024-10-17

原始信息汇总

JudgeBench: A Benchmark for Evaluating LLM-Based Judges

数据集概述

数据来源: 包含350个由GPT-4o生成的独特响应对和270个由Claude-3.5-Sonnet生成的独特响应对。
数据格式: 每个实例是一个JSON对象，包含以下字段：
- pair_id: 响应对的唯一标识符。
- original_id: 原始问题在源数据集中的ID。
- source: 问题来源的数据集。
- question: 生成响应的问题。
- response_model: 用于生成响应的模型。
- response_A: 一个响应候选。
- response_B: 另一个响应候选。
- label: 指示正确性的客观标签。

数据集访问

HuggingFace: 数据集可通过HuggingFace的Datasets库访问，链接为HuggingFace。 python from datasets import load_dataset gpt_data = load_dataset("ScalerLab/JudgeBench", split="gpt") claude_data = load_dataset("ScalerLab/JudgeBench", split="claude")

数据集使用

运行Judge: 主要功能在run_judge.py中，支持多种Judge模型和奖励模型。
- 支持的Judge模型: Vanilla, Arena-Hard, PandaLM, Prometheus 2, JudgeLM, AutoJ, Skywork-Critic。
- 支持的奖励模型: InternLM2-7B-Reward, InternLM2-20B-Reward, GRM-Gemma-2B, Skywork-Reward-Gemma-2-27B, Skywork-Reward-Llama-3.1-8B。
- 示例命令: bash export OPENAI_API_KEY=your-api-key-here python run_judge.py --judge_name arena_hard --judge_model gpt-4o-mini --pairs data/dataset=judgebench,response_model=gpt-4o-2024-05-13.jsonl

数据集扩展

自定义Judge: 可以通过继承utils/judges.py中的Judge类来创建新的Judge。
- 实现方法: 实现get_judgment()方法，返回包含决策的字典。
- 提示模板: 提示模板存储在utils/templates/中，使用jinja格式。
- 添加新Judge: 在utils/judges.py中添加新Judge的条目。

引用

Citation: bibtex @misc{judgebench2024, title={JudgeBench: A Benchmark for Evaluating LLM-Based Judges}, author={Sijun Tan and Siyuan Zhuang and Kyle Montgomery and Willian Y. Tang and Alejandro Cuadron and Chenguang Wang and Raluca Ada Popa and Ion Stoica}, year={2024}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2410.12784} }

搜集汇总

数据集介绍

构建方式

JudgeBench的构建基于一个创新性的管道，该管道将现有的具有客观真实标签和验证算法的数据集转换为专门用于评估基于LLM的法官的数据集。具体而言，该管道首先从现有数据集中提取问题，并使用强大的LLM（如GPT-4o）生成多个候选响应。随后，对这些响应进行正确性评估，并筛选出至少包含一个正确和一个错误响应的问题。最终，这些响应对被组合成具有明确客观真实标签的挑战性响应对，以确保数据集的高难度和高质量。

使用方法

JudgeBench的使用方法主要包括三个方面：首先，研究人员可以使用该数据集来评估和比较不同类型的基于LLM的法官，包括提示型、微调型和多代理型法官。其次，通过固定提示并更换底层模型，可以评估不同模型在相同提示下的表现差异。最后，JudgeBench还可用于评估奖励模型，通过独立评分来判断响应的优劣。通过这些方法，JudgeBench为研究人员提供了一个全面的平台，以测试和提升基于LLM的法官的性能。

背景与挑战

背景概述

JudgeBench数据集由加州大学伯克利分校和圣路易斯华盛顿大学的研究团队开发，旨在评估基于大型语言模型（LLM）的评判系统的可靠性。随着LLM在评估、比较和改进模型中的应用日益广泛，其自身的可靠性问题逐渐凸显。JudgeBench通过引入一个新颖的评估框架，专注于在知识、推理、数学和编码等领域中，对LLM评判系统进行客观评估。该数据集的创建旨在解决现有基准主要关注评判系统与人类偏好的一致性，但在更复杂的任务中，人群标注的人类偏好往往无法准确反映事实和逻辑正确性的问题。

当前挑战

JudgeBench数据集面临的挑战主要在于其解决的领域问题和构建过程中遇到的困难。首先，该数据集旨在解决LLM评判系统在复杂任务中区分事实和逻辑正确性的难题，这些任务包括验证代码片段的正确性或评估复杂的数学证明，这些任务对领域特定知识和推理能力要求极高，远超人群标注的人类评估者所能承受的范围。其次，在构建过程中，研究团队需要将现有困难数据集转换为具有偏好标签的挑战性响应对，这一过程涉及复杂的转换和标注工作，确保生成的数据对能够真实反映LLM评判系统的实际能力。此外，数据集的生成还必须克服模型自身可能存在的逻辑和事实错误，确保评判系统的准确性和客观性。

常用场景

经典使用场景

JudgeBench 数据集的经典使用场景在于评估基于大型语言模型（LLM）的裁判系统。该数据集通过提供涵盖知识、推理、数学和编码等多个领域的复杂响应对，来测试这些裁判系统在区分正确与错误响应方面的能力。这种评估框架不仅关注响应的风格和指令遵循，更侧重于响应的事实和逻辑正确性，从而为LLM裁判系统的客观评估提供了一个可靠的平台。

解决学术问题

JudgeBench 数据集解决了当前学术研究中一个重要的问题，即如何客观评估LLM裁判系统的可靠性。传统的评估方法主要依赖于人类偏好的一致性，但在复杂任务中，这种一致性往往不足以反映响应的实际正确性。JudgeBench通过引入一个包含事实和逻辑正确性优先级的评估框架，填补了这一空白，为未来LLM裁判系统的研究提供了新的方向和标准。

实际应用

在实际应用中，JudgeBench 数据集可用于开发和验证各种基于LLM的裁判系统，这些系统在自动化评估、模型改进和质量控制等领域具有广泛的应用前景。例如，在教育领域，这些系统可以用于自动评分和反馈生成；在软件开发中，它们可以帮助检测代码中的错误和漏洞。通过使用JudgeBench，开发者可以确保其裁判系统在处理复杂任务时具有高度的准确性和可靠性。

数据集最近研究