JETTS Benchmark

Name: JETTS Benchmark
Creator: Salesforce AI Research
Published: 2025-04-22 01:33:23
License: 暂无描述

arXiv2025-04-22 更新2025-04-23 收录

下载链接：

https://github.com/SalesforceAIResearch/jetts-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

JETTS Benchmark是由Salesforce AI Research创建的数据集，用于评估LLM-judges在测试时间扩展中的性能。该数据集包括三个任务：响应重排、步骤级束搜索和基于批评的响应精炼。涵盖数学推理、代码生成和指令遵循三个领域，包含多个子数据集。数据集通过模拟三种不同的测试时间扩展场景，评估LLM-judges对生成器模型的改进效果。

The JETTS Benchmark is a dataset developed by Salesforce AI Research for evaluating the performance of LLM-judges in test-time scaling scenarios. It comprises three core tasks: response reranking, step-level beam search, and critique-based response refinement. Spanning three domains including mathematical reasoning, code generation, and instruction following, the dataset includes multiple sub-datasets. It assesses the efficacy of LLM-judges in improving generator models by simulating three distinct test-time scaling scenarios.

提供机构：

Salesforce AI Research

创建时间：

2025-04-22

原始信息汇总

JETTS数据集概述

数据集简介

数据集名称：JETTS (Judge Evaluation for Test-Time-Scaling)
作者：Yilun Zhou, Austin Xu, Peifeng Wang, Caiming Xiong, Shafiq Joty
目的：评估LLM-as-Judges在测试时扩展评估中的表现

数据集内容

数据文件

reranking_and_refinement
- 格式：jsonl文件
- 内容：模型对特定数据集的响应，每个文件包含最多10个响应
- 命名格式：{dataset}_{generator_model}.jsonl
beam_search
- 格式：子文件夹包含完全扩展的beam搜索树
- 命名格式：{dataset}_{N}_{M}_{d}_{generator_model}
- 文件：0.jsonl到{L-1}.jsonl对应数据集中的L个查询

数据下载

下载方式：通过gcloud命令行工具下载
数据存储位置：Google Cloud
数据文件：
- reranking_and_refinement.tar.gz (143MB压缩，650MB解压)
- beam_search.tar.gz (6.7GB压缩，51GB解压)

数据集任务

Response Reranking
- 脚本：scripts/reranking.py
- 输入：reranking_and_refinement中的jsonl文件
- 输出：outputs/reranking文件夹中的排名结果文件
Step-Level Beam Search
- 脚本：scripts/beam_search.py
- 输入：beam_search中的子文件夹
- 输出：outputs/beam_search文件夹中的beam搜索决策文件
Critique-Based Refinement
- 脚本：scripts/refinement.py
- 输入：reranking_and_refinement中的jsonl文件
- 输出：outputs/refinement文件夹中的精炼响应文件

评估方法

评估脚本：evaluate_refinement.py
支持的数据集：gsm8k, math, champ, humaneval, mbpp, bigcodebench, alpacaeval, ifeval
评估环境：
- 通用环境：jetts-eval
- BigCodeBench专用环境：jetts-eval-bcb

模型支持

Judge模型

支持模型：prom7b, sc8b, ob8b, thm8b, prom8x7b, sc70b, ste70b, llama8b
启动方式：scripts/launch_judge.py

Generator模型

支持模型：llama8b, llama70b, qwen32b, qwen72b
启动方式：scripts/launch_generator.py

注意事项

数据文件暂未上传至Huggingface
SFR-Judge模型权重暂未发布
BigCodeBench评估需要单独的环境配置

搜集汇总

数据集介绍

构建方式

JETTS Benchmark数据集通过系统评估LLM-judge模型在三个关键任务（响应重排序、步骤级束搜索和基于批评的细化）中的表现来构建。数据集覆盖数学推理、代码生成和指令跟随三个领域，并采用预计算模型响应以减少随机性影响。构建过程中，研究者对10种不同规模的judge模型（7B-70B参数）和8种基础生成模型（6.7B-72B参数）进行了全面测试，通过标准化帮助度指标量化judge模型的性能提升效果。

使用方法

使用JETTS Benchmark时，研究者可通过提供的标准化评估流程，测试judge模型在三种任务场景下的表现。对于响应重排序，可采用成对轮询或单实例评分协议；步骤级束搜索支持常规和前瞻两种模式；基于批评的细化则通过多轮迭代评估反馈效果。数据集已预生成所有模型响应，用户可直接加载进行评估，显著降低计算开销。评估结果可通过帮助度指标进行跨模型比较，并为judge模型在测试时计算场景中的应用提供实证依据。

背景与挑战

背景概述

JETTS Benchmark是由Salesforce AI Research的Yilun Zhou、Austin Xu、Peifeng Wang、Caiming Xiong和Shafiq Joty等研究人员于2025年提出的一个系统性基准测试，旨在评估大型语言模型（LLM）作为评判者在测试时计算扩展（test-time scaling）场景中的表现。该基准测试专注于三个主要领域：数学推理、代码生成和指令遵循，并设计了三个任务设置：响应重排序、步骤级束搜索和基于批评的响应优化。JETTS Benchmark的提出填补了LLM评判者在测试时计算扩展场景中有效性评估的空白，为相关领域的研究提供了重要的参考框架。

当前挑战

JETTS Benchmark面临的挑战主要包括两个方面：1) 领域问题的挑战，即如何准确评估LLM评判者在数学推理、代码生成和指令遵循等复杂任务中的表现，特别是在处理部分响应和生成自然语言批评时的有效性；2) 构建过程中的挑战，包括设计能够模拟真实测试时计算扩展场景的任务，以及处理评判者模型在不同协议（如成对比较和单实例评分）下的性能差异。此外，基准测试还需要解决评判者模型在大小和生成器模型之间的比例对性能影响的问题，以及评判者生成的批评在实际优化响应中的效用问题。

常用场景

经典使用场景

JETTS Benchmark数据集在大型语言模型（LLM）评估领域具有广泛的应用，特别是在测试时计算扩展（test-time scaling）场景中。该数据集通过三个核心任务——响应重排序（response reranking）、步骤级束搜索（step-level beam search）和基于批评的细化（critique-based refinement）——系统评估了LLM作为评判者（judge）的能力。这些任务覆盖了数学推理、代码生成和指令遵循三个关键领域，为研究者提供了全面评估模型在不同计算密集型任务中表现的标准化平台。

解决学术问题

JETTS Benchmark解决了LLM评估领域的几个关键学术问题：首先，它填补了LLM评判者在测试时计算扩展场景中系统性评估的空白；其次，通过比较评判者与奖励模型（RM）的表现，揭示了评判者在不同任务设置中的优劣势；最后，该数据集量化了评判者规模与生成器规模比对性能的影响，为模型部署中的资源分配提供了实证依据。这些贡献显著推进了自动评估方法的研究，特别是在需要复杂推理的领域。

实际应用

在实际应用中，JETTS Benchmark为开发更高效的LLM系统提供了重要指导。例如，在代码生成工具中，开发者可以利用其束搜索评估结果优化逐步生成过程；在教育领域的自动解题系统中，基于批评的细化任务评估可帮助改进反馈机制；而在对话系统开发中，响应重排序性能指标能指导选择最优的响应选择策略。该数据集特别适用于需要平衡计算成本与生成质量的工业级应用场景。

数据集最近研究