five

JETTS Benchmark

收藏
arXiv2025-04-22 更新2025-04-23 收录
下载链接:
https://github.com/SalesforceAIResearch/jetts-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
JETTS Benchmark是由Salesforce AI Research创建的数据集,用于评估LLM-judges在测试时间扩展中的性能。该数据集包括三个任务:响应重排、步骤级束搜索和基于批评的响应精炼。涵盖数学推理、代码生成和指令遵循三个领域,包含多个子数据集。数据集通过模拟三种不同的测试时间扩展场景,评估LLM-judges对生成器模型的改进效果。

The JETTS Benchmark is a dataset developed by Salesforce AI Research for evaluating the performance of LLM-judges in test-time scaling scenarios. It comprises three core tasks: response reranking, step-level beam search, and critique-based response refinement. Spanning three domains including mathematical reasoning, code generation, and instruction following, the dataset includes multiple sub-datasets. It assesses the efficacy of LLM-judges in improving generator models by simulating three distinct test-time scaling scenarios.
提供机构:
Salesforce AI Research
创建时间:
2025-04-22
原始信息汇总

JETTS数据集概述

数据集简介

  • 数据集名称:JETTS (Judge Evaluation for Test-Time-Scaling)
  • 作者:Yilun Zhou, Austin Xu, Peifeng Wang, Caiming Xiong, Shafiq Joty
  • 目的:评估LLM-as-Judges在测试时扩展评估中的表现

数据集内容

数据文件

  1. reranking_and_refinement

    • 格式:jsonl文件
    • 内容:模型对特定数据集的响应,每个文件包含最多10个响应
    • 命名格式:{dataset}_{generator_model}.jsonl
  2. beam_search

    • 格式:子文件夹包含完全扩展的beam搜索树
    • 命名格式:{dataset}_{N}_{M}_{d}_{generator_model}
    • 文件:0.jsonl{L-1}.jsonl对应数据集中的L个查询

数据下载

  • 下载方式:通过gcloud命令行工具下载
  • 数据存储位置:Google Cloud
  • 数据文件:
    • reranking_and_refinement.tar.gz (143MB压缩,650MB解压)
    • beam_search.tar.gz (6.7GB压缩,51GB解压)

数据集任务

  1. Response Reranking

    • 脚本:scripts/reranking.py
    • 输入:reranking_and_refinement中的jsonl文件
    • 输出:outputs/reranking文件夹中的排名结果文件
  2. Step-Level Beam Search

    • 脚本:scripts/beam_search.py
    • 输入:beam_search中的子文件夹
    • 输出:outputs/beam_search文件夹中的beam搜索决策文件
  3. Critique-Based Refinement

    • 脚本:scripts/refinement.py
    • 输入:reranking_and_refinement中的jsonl文件
    • 输出:outputs/refinement文件夹中的精炼响应文件

评估方法

  • 评估脚本evaluate_refinement.py
  • 支持的数据集:gsm8k, math, champ, humaneval, mbpp, bigcodebench, alpacaeval, ifeval
  • 评估环境
    • 通用环境:jetts-eval
    • BigCodeBench专用环境:jetts-eval-bcb

模型支持

Judge模型

  • 支持模型:prom7b, sc8b, ob8b, thm8b, prom8x7b, sc70b, ste70b, llama8b
  • 启动方式:scripts/launch_judge.py

Generator模型

  • 支持模型:llama8b, llama70b, qwen32b, qwen72b
  • 启动方式:scripts/launch_generator.py

注意事项

  • 数据文件暂未上传至Huggingface
  • SFR-Judge模型权重暂未发布
  • BigCodeBench评估需要单独的环境配置
搜集汇总
数据集介绍
main_image_url
构建方式
JETTS Benchmark数据集通过系统评估LLM-judge模型在三个关键任务(响应重排序、步骤级束搜索和基于批评的细化)中的表现来构建。数据集覆盖数学推理、代码生成和指令跟随三个领域,并采用预计算模型响应以减少随机性影响。构建过程中,研究者对10种不同规模的judge模型(7B-70B参数)和8种基础生成模型(6.7B-72B参数)进行了全面测试,通过标准化帮助度指标量化judge模型的性能提升效果。
使用方法
使用JETTS Benchmark时,研究者可通过提供的标准化评估流程,测试judge模型在三种任务场景下的表现。对于响应重排序,可采用成对轮询或单实例评分协议;步骤级束搜索支持常规和前瞻两种模式;基于批评的细化则通过多轮迭代评估反馈效果。数据集已预生成所有模型响应,用户可直接加载进行评估,显著降低计算开销。评估结果可通过帮助度指标进行跨模型比较,并为judge模型在测试时计算场景中的应用提供实证依据。
背景与挑战
背景概述
JETTS Benchmark是由Salesforce AI Research的Yilun Zhou、Austin Xu、Peifeng Wang、Caiming Xiong和Shafiq Joty等研究人员于2025年提出的一个系统性基准测试,旨在评估大型语言模型(LLM)作为评判者在测试时计算扩展(test-time scaling)场景中的表现。该基准测试专注于三个主要领域:数学推理、代码生成和指令遵循,并设计了三个任务设置:响应重排序、步骤级束搜索和基于批评的响应优化。JETTS Benchmark的提出填补了LLM评判者在测试时计算扩展场景中有效性评估的空白,为相关领域的研究提供了重要的参考框架。
当前挑战
JETTS Benchmark面临的挑战主要包括两个方面:1) 领域问题的挑战,即如何准确评估LLM评判者在数学推理、代码生成和指令遵循等复杂任务中的表现,特别是在处理部分响应和生成自然语言批评时的有效性;2) 构建过程中的挑战,包括设计能够模拟真实测试时计算扩展场景的任务,以及处理评判者模型在不同协议(如成对比较和单实例评分)下的性能差异。此外,基准测试还需要解决评判者模型在大小和生成器模型之间的比例对性能影响的问题,以及评判者生成的批评在实际优化响应中的效用问题。
常用场景
经典使用场景
JETTS Benchmark数据集在大型语言模型(LLM)评估领域具有广泛的应用,特别是在测试时计算扩展(test-time scaling)场景中。该数据集通过三个核心任务——响应重排序(response reranking)、步骤级束搜索(step-level beam search)和基于批评的细化(critique-based refinement)——系统评估了LLM作为评判者(judge)的能力。这些任务覆盖了数学推理、代码生成和指令遵循三个关键领域,为研究者提供了全面评估模型在不同计算密集型任务中表现的标准化平台。
解决学术问题
JETTS Benchmark解决了LLM评估领域的几个关键学术问题:首先,它填补了LLM评判者在测试时计算扩展场景中系统性评估的空白;其次,通过比较评判者与奖励模型(RM)的表现,揭示了评判者在不同任务设置中的优劣势;最后,该数据集量化了评判者规模与生成器规模比对性能的影响,为模型部署中的资源分配提供了实证依据。这些贡献显著推进了自动评估方法的研究,特别是在需要复杂推理的领域。
实际应用
在实际应用中,JETTS Benchmark为开发更高效的LLM系统提供了重要指导。例如,在代码生成工具中,开发者可以利用其束搜索评估结果优化逐步生成过程;在教育领域的自动解题系统中,基于批评的细化任务评估可帮助改进反馈机制;而在对话系统开发中,响应重排序性能指标能指导选择最优的响应选择策略。该数据集特别适用于需要平衡计算成本与生成质量的工业级应用场景。
数据集最近研究
最新研究方向
JETTS Benchmark作为评估LLM-as-Judges在测试时扩展场景下性能的首个系统性基准,聚焦于三个核心任务:响应重排序、步骤级束搜索和基于评论的响应优化。该数据集在数学推理、代码生成和指令遵循三个领域展开评估,揭示了当前LLM-judges模型在测试时扩展中的局限性。前沿研究表明,虽然LLM-judges在重排序任务中表现与结果奖励模型相当,但在束搜索程序中始终逊色于过程奖励模型。此外,尽管自然语言评论是LLM-judges的独特优势,但目前其在指导生成器优化响应方面效果有限。该数据集的建立为理解不同规模评判模型与生成器模型的协同效应提供了实证基础,特别是在数学推理等复杂任务中,大型评判模型对弱生成器的提升效果显著,而小型评判模型对强生成器的辅助能力则较为有限。这一研究方向与当前语言模型测试时计算优化的热点紧密相关,为自动评估系统的设计提供了重要参考。
相关研究论文
  • 1
    Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling EvaluatorsSalesforce AI Research · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作