seqBench

Name: seqBench
Creator: Salesforce AI, Capital One, MIT
Published: 2025-09-21 09:32:13
License: 暂无描述

arXiv2025-09-21 更新2025-09-24 收录

下载链接：

https://huggingface.co/datasets/emnlp-submission/seqBench

下载链接

链接失效反馈

官方服务：

资源简介：

seqBench是一个参数化的基准测试，用于探测大型语言模型（LLMs）在顺序推理方面的极限。该数据集由合成但语言上有根据的二维网格上的寻路任务配置组成。解决每个问题需要对相关和分散的结构化事实进行顺序推理。每个实例都可以自动验证，并通过可控的因素进行参数化，这些因素直接针对之前确定的差距：逻辑深度（真实解决方案中的总动作数，反映推理链的长度）、回溯计数（在最佳路径上需要修订暂定解决方案路径的锁定门的绕行次数）和噪声比率（测试对无关信息的鲁棒性）。这些维度的性能可以通过细粒度的指标（例如，通过我们这里定义的进度比率）来量化。我们观察到，超过一定的逻辑深度，所有模型的Pass@1成功率几乎为零。这些特性使得可以对模型失败模式进行精确的归因研究，从而深入了解当前LLM泛化的脆弱边界。

seqBench is a parameterized benchmark designed to probe the limits of large language models (LLMs) in sequential reasoning. This dataset consists of synthetic yet linguistically plausible pathfinding task configurations on 2D grids. Solving each problem requires sequential reasoning over both relevant and distractor structured facts. Each instance is automatically verifiable and parameterized via controllable factors that directly target previously identified gaps: logical depth, defined as the total number of actions in the ground-truth solution and reflecting the length of the reasoning chain; backtrack count, referring to the number of detours around locked gates on the optimal path that require revisions to tentative solution paths; and noise ratio, which tests robustness against irrelevant information. Performance across these dimensions can be quantified via fine-grained metrics, such as the progress ratio defined herein. We observe that beyond a certain logical depth, the Pass@1 success rate of all models drops to nearly zero. These characteristics enable precise attribution studies of model failure modes, yielding insights into the fragile generalization boundaries of current LLMs.

提供机构：

Salesforce AI, Capital One, MIT

创建时间：

2025-09-21

原始信息汇总

SeqBench 数据集概述

数据集基本信息

数据集名称: SeqBench
描述: 用于严格评估和分析语言模型顺序推理能力的程序生成基准。任务实例涉及在二维网格环境中进行路径查找，要求模型在相关文本事实和干扰文本事实的组合上执行多步推理。
许可证: CC-BY-4.0
语言: 英语
标签: 大语言模型、LLM评估、顺序推理、缩放定律、合成基准、常识推理、空间推理、知识图谱

数据集内容

实例数量: 7079
数据格式: gzipped JSONL格式（seqBench_compact.jsonl.gz）
关键复杂度维度:
- 逻辑深度（L）：真实最优解中的行动数量
- 回溯计数（B）：最优路径上需要绕行寻找对应钥匙的锁门数量
- 噪声比（N）：问题描述中干扰事实相对于支持事实的比例

数据结构与字段

每个JSON对象包含以下字段：

instance_id: 实例唯一标识符
context: 呈现给模型的自然语言问题描述
completion: 代表最优解的行动序列
complexity_parameters: 包含L、B、N值的字典
instance_metadata: 迷宫维度、代理/目标名称等元数据
structural_details: 底层基础迷宫配置的JSON字符串

数据集统计信息

逻辑深度（L）范围: [3, 774]
回溯计数（B）分布:
- B=0: 441实例
- B=1: 438实例
- B=2: 565实例
- B=3: 790实例
- B=4: 1046实例
- B=5: 1601实例
- B=6: 2198实例
噪声比（N）范围: [0.0, 0.2, 0.4, 0.6, 0.8, 1.0]
噪声比分布: 6个噪声水平上实例大致均匀分布

生成过程

基础迷宫生成：在N×M网格上程序化创建无环迷宫图
回溯构建：通过从目标房间向后工作，策略性放置钥匙和锁门来嵌入目标回溯操作
NLP表述：为每个基础迷宫配置推导描述环境和任务的规范事实列表
噪声应用：使用指定噪声比选择干扰事实与支持事实一起形成最终上下文

引用信息

bibtex @misc{anonymous2025seqbench, author = {Anonymous Submission}, title = {SeqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs}, year = {2025}, publisher = {Proceedings of the Conference on Empirical Methods in Natural Language Processing}, note = {Special Theme: Interdisciplinary Recontextualization of NLP}, comment = {Dataset accessible at https://huggingface.co/datasets/emnlp-submission/seqBench} }

搜集汇总

数据集介绍

构建方式

seqBench数据集通过多阶段生成流程构建空间路径规划任务，其核心采用基于网格的迷宫生成算法。首先利用Kruskal算法在N×M网格上构建无环连通图作为基础环境，随后通过逆向构造方法从目标点反向嵌入指定数量的回溯步骤，系统化放置钥匙与锁门机制以控制任务复杂度。最后将迷宫结构转化为自然语言描述的事实列表，并根据目标噪声比例注入干扰信息，形成可自动验证的参数化任务实例。

特点

该数据集具备三维正交可控的复杂度特征：逻辑深度量化解决任务所需的最优路径步数，回溯次数反映路径中必须重新访问先前状态的次数，噪声比例则衡量支持性事实与干扰性事实的比率。这种设计使得每个任务实例均带有精确的L、B、N参数标注，支持研究者按需筛选特定复杂度组合的任务子集。数据集包含7079个实例，覆盖5×5至50×50的网格规模与0-7级回溯复杂度，为分析模型推理边界提供细粒度实验基础。

使用方法

研究者可通过标准化提示模板对模型进行评估，该模板包含任务指令、动作规范、多难度示例及推理引导四部分。评估时采用温度1.0与核采样0.95的参数配置，每个实例进行5次独立运行以计算稳健的Pass@1成功率。除基础成功率外，还可通过进度比率、精确率、召回率等多维度指标分析模型错误模式，其中进度比率能精准定位推理链断裂位置，而违规分布图可可视化错误类型与发生阶段。数据集支持按逻辑深度分箱抽样，便于系统性研究性能衰减规律。

背景与挑战

背景概述

seqBench是由Salesforce AI、Capital One与MIT的研究团队于2025年提出的可调参数化基准数据集，旨在系统评估大语言模型在序列推理任务中的性能边界。该数据集通过生成二维网格路径规划任务，首次实现了对逻辑深度、回溯步数和噪声比例三个核心维度的独立精准控制，填补了现有基准在量化推理失败条件方面的空白。其设计聚焦于剥离搜索复杂度干扰，纯粹考察模型的多步逻辑链维护能力，为理解Transformer架构的序列推理瓶颈提供了标准化实验范本。

当前挑战

seqBench针对的领域挑战在于大语言模型在长链序列推理中普遍存在的性能塌陷现象，即使面对最小搜索复杂度的任务，模型准确率仍随逻辑深度增加呈指数级衰减。构建过程中的技术挑战包括：如何通过逆向构造算法确保回溯依赖关系的可解性与参数化可控性；如何在自然语言事实编码中平衡语义合理性与维度正交性；以及如何设计噪声注入机制以模拟真实场景中的信息干扰，同时保持任务结构的数学严谨性。

常用场景

经典使用场景

在评估大语言模型序列推理能力的学术研究中，seqBench作为可调谐基准被广泛应用于量化模型在多步逻辑链任务中的表现极限。该数据集通过精确控制逻辑深度、回溯步骤和噪声比例等维度，为研究者提供了系统分析模型推理崩溃点的实验平台。在典型应用场景中，研究人员会固定其中两个参数而逐步调整第三个参数，从而观测模型性能随特定复杂度维度变化的衰减规律，这种设计使得seqBench成为探测Transformer架构序列推理边界的重要工具。

衍生相关工作

该数据集的创新设计理念催生了多个延伸研究方向的诞生。在基准构建方面，GridPuzzle等研究借鉴了其细粒度错误分类方法，ZebraLogic则延续了其对形式化推理的评估思路。在方法论层面，基于seqBench发现的指数衰减规律，后续研究提出了进度比等新型评估指标；其揭示的路径长度依赖错误现象，更是推动了分层推理、子目标分解等新范式的出现。这些衍生工作共同构成了当前序列推理评估领域的重要技术脉络。

数据集最近研究