AutoJudge

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/mightyneighbor/AutoJudge

下载链接

链接失效反馈

官方服务：

资源简介：

AutoJudge数据集包含论文中每个设置的计算隐藏层，用于训练Autojudge头部。数据集文件结构为序列化Python列表，其中每个条目都是一个包含任务的元信息和草稿模型与目标模型的计算隐藏层的字典。README文件详细介绍了数据集的结构、字段描述以及如何加载和使用数据。

创建时间：

2025-09-17

原始信息汇总

AutoJudge 数据集概述

基本信息

许可证: MIT
研究论文: arXiv:2504.20039
源代码库: GitHub: garipovroma/autojudge

数据集内容

数据集包含论文中所有设置下用于训练AutoJudge头的计算隐藏状态。

文件结构与字段说明

每个文件是一个序列化的Python列表，每个条目是一个包含任务元信息和计算隐藏状态的字典。

通用字段（GSM8K和LiveCodeBench）

changed_token_indices: 每个最早草稿/目标不匹配的元组列表，格式为(位置, 重要性, 目标令牌ID, 草稿令牌ID)
colored_tokens: 当前序列的可视化显示（如果存在），显示不匹配情况
current_response: 算法完成后的最终令牌ID序列
hiddens: 每个不匹配位置处四个隐藏状态的连接
prev_hiddens: 前一令牌位置处的相同构造隐藏状态

GSM8K特定字段

draft_answer: 草稿模型的最终数值答案
target_answer: 目标模型的最终数值答案
id: 挖掘过程中分配的样本ID

LiveCodeBench特定字段

draft_score: 草稿模型的程序测试得分（0/1）
target_score: 目标模型的程序测试得分（0/1）
global_id: LCB任务迭代时分配的索引
question_id: LiveCodeBench问题ID
contest_id: 竞赛ID
contest_date: 竞赛日期（ISO格式）
prompt: 用于查询模型的精确提示字符串
tags: 样本的静态标签
task: 数据集标识符
source: 数据源标识符
beam_size: 解码时使用的束搜索大小

数据加载

可通过Hugging Face Hub下载文件，支持模式匹配或直接指定文件名加载数据集。

令牌重要性示例

数据集包含带颜色标记的模型响应示例，使用不同颜色表示令牌状态：

黑色：未更改的令牌
红色：与目标模型序列不同的令牌
绿色：不重要不匹配（交换不影响最终结果）
黄色：重要不匹配（交换会改变最终结果）
浅灰色（括号内）：该位置考虑的其他令牌

搜集汇总

数据集介绍

构建方式

AutoJudge数据集通过对比草稿模型与目标模型在GSM8K数学推理和LiveCodeBench代码生成任务中的隐藏状态差异构建而成。该方法采用自动化标记机制，识别模型输出中最早出现分歧的token位置，并记录替换不同token对最终答案或评分的影响。每个样本包含序列化后的隐藏状态向量、token重要性标注及元数据信息，无需人工标注即可生成高质量的训练数据。

特点

该数据集的核心特征体现在其多维度对比架构上，同时涵盖数学推理与代码生成两大领域。数据集提供详细的token级重要性标注，通过颜色编码直观展示关键差异点，并包含完整的隐藏状态序列与前后位置关联信息。特别设计的字段结构分别适配GSM8K的数值答案验证和LiveCodeBench的程序测试评分需求，为模型决策机制研究提供细粒度分析基础。

使用方法

研究人员可通过HuggingFace Hub接口使用模式匹配或直接指定文件路径加载数据集。加载后的序列化数据包含隐藏状态向量、token差异信息和任务元数据，适用于训练自动判断头部模型。使用时应根据研究目标选择GSM8K或LiveCodeBench子集，利用提供的隐藏状态对比数据分析和改进模型解码过程中的决策机制。

背景与挑战

背景概述

AutoJudge数据集诞生于2025年，由研究团队通过arXiv预印本平台首次公开，专注于大语言模型推理过程中的自动评估机制。该数据集的核心价值在于突破了传统依赖人工标注的评判模式，通过系统化采集GSM8K数学推理与LiveCodeBench代码生成任务中的隐藏层激活数据，构建了可训练自动评判头的多维特征空间。其创新性地捕捉了草案模型与目标模型在关键token位置的隐藏状态差异，并量化每个token替换对最终输出的影响程度，为模型推理路径的可解释性研究提供了重要数据支撑。

当前挑战

该数据集致力于解决大语言模型输出可靠性的核心难题，即如何在不依赖人工干预的情况下自动判定生成内容的正确性。构建过程中面临多重技术挑战：首先需要精确捕捉模型推理过程中的关键分歧点，设计高效的token重要性标注算法；其次需处理高维隐藏状态数据的存储与对齐问题，确保数万条样本中4H维向量的完整性；最后还需建立跨领域评估体系，同步支持数学推理的数值答案验证和代码生成的功能测试验证，这对数据结构的统一性与扩展性提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，AutoJudge数据集主要用于训练和验证解码过程中的自动评判机制。该数据集通过对比草稿模型与目标模型在GSM8K数学推理和LiveCodeBench代码生成任务中的隐藏状态差异，为研究者提供了分析模型决策过程中关键token影响的宝贵资源。其经典应用场景包括构建能够自动识别生成文本中关键错误的神经网络分类器，显著提升了模型输出质量的自动化评估效率。

衍生相关工作

该数据集催生了多项重要研究工作，特别是在推测解码和模型加速领域。基于其构建的AutoJudge头部网络成为推测解码系统的核心组件，衍生出包括FastJudge在内的多个高效推理框架。这些工作通过利用token重要性预测机制，实现了在保持生成质量的前提下显著提升推理速度，推动了大模型部署优化技术的前沿发展。

数据集最近研究