LONGREASONARENA
收藏arXiv2025-08-27 更新2025-08-29 收录
下载链接:
https://github.com/LongReasonArena/LongReasonArena
下载链接
链接失效反馈官方服务:
资源简介:
LONGREASONARENA是一个专门设计用于评估大型语言模型(LLM)长推理能力的基准数据集。该数据集要求模型通过执行多步骤算法来解决问题,这些算法体现了长推理的关键方面,如检索和回溯。通过控制输入,所需的推理长度可以任意缩放,最具有挑战性的任务可以达到100万Tokens的推理长度。LONGREASONARENA对开源和专有LLM都提出了重大挑战,例如Deepseek-R1在任务上仅达到7.5%的准确率。该数据集通过控制输入来任意缩放所需的推理长度,并通过执行算法来评估模型性能,从而反映长推理的关键方面,如检索和回溯。
LONGREASONARENA is a benchmark dataset specifically designed to evaluate the long-context reasoning capabilities of Large Language Models (LLMs). This dataset requires models to solve problems by executing multi-step algorithms that embody key aspects of long reasoning such as retrieval and backtracking. By controlling the input, the required reasoning length can be arbitrarily scaled, with the most challenging tasks reaching a reasoning length of 1 million Tokens. LONGREASONARENA poses significant challenges to both open-source and proprietary LLMs; for instance, Deepseek-R1 achieves only a 7.5% accuracy rate on these tasks. This dataset scales the required reasoning length arbitrarily through input control and evaluates model performance via algorithm execution, thereby reflecting core facets of long reasoning including retrieval and backtracking.
提供机构:
西安交通大学人工智能研究院, 微软研究院
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在构建LONGREASONARENA数据集时,研究团队从LeetCode平台系统性地筛选算法问题,依据特定标签排除数据库、随机化等与长推理能力评估无关的题型。通过Qwen2.5-Coder-32B-Instruct模型为每个问题生成输入生成器函数,确保其能稳定产生多样化输入且达到90%以上的代码覆盖率。样本根据解决方案执行时的代码行数划分为三个难度等级,分别对应约1K、100K和1M令牌的推理长度,并通过过滤可猜测样本和输入长度约束(不超过32K令牌)强化任务对长推理能力的针对性评估。
特点
LONGREASONARENA的核心特点在于其专注于评估大语言模型的长推理能力,而非传统的长输入理解。该数据集通过算法执行任务抽象化长推理中的关键认知操作,如检索、回溯和动态内存管理。其难度可随输入控制任意扩展,最高可达百万令牌级别的推理复杂度。数据集的多样性体现在覆盖深度优先搜索、动态规划等多种算法类型,且样本输入长度经过严格约束,确保挑战性源于推理过程而非输入处理。评估结果显示,当前最先进模型在高级别任务上准确率不足10%,凸显了其在长推理中的显著局限性。
使用方法
使用LONGREASONARENA进行评估时,需将问题描述和输入数据提供给待测模型,要求模型逐步生成推理链并最终输出答案。答案需用\boxed{}格式包裹,输出验证器会对比参考答案(通过执行标准解决方案获得)判断正确性,支持多正确答案问题的顺序无关比较。评估重点关注模型在长推理链中的表现,如检索准确性、回溯效率及错误类型分析。该基准支持通过调整输入参数控制推理长度,适用于不同能力水平的模型测试,并为长推理机制的深入研究提供标准化框架。
背景与挑战
背景概述
LONGREASONARENA由微软研究院与西安交通大学人工智能研究所于2025年联合推出,旨在填补大语言模型长程推理能力评估的空白。该基准测试通过算法执行任务,要求模型完成多步推理过程,涵盖检索、回溯等核心认知操作。其创新性在于通过输入控制实现推理长度的任意扩展,最高可达百万令牌级别,为推理模型的性能边界提供了标准化度量框架,显著推动了长程推理研究的发展。
当前挑战
该数据集主要解决长程推理能力评估的领域挑战,包括模型在多重检索操作中的一致性保持、动态回溯路径的探索效率以及中间结果的记忆管理问题。构建过程中的技术挑战涉及算法问题的多样性筛选、输入生成器的稳定性与覆盖率平衡,以及排除可通过启发式方法猜测的样本以确保评估有效性。
常用场景
经典使用场景
在长上下文推理能力评估领域,LONGREASONARENA通过算法执行任务构建标准化测试环境,要求模型处理需多步推理的复杂问题,如深度优先搜索和动态规划,以检验其长链推理中的检索与回溯等核心能力。
解决学术问题
该数据集填补了长推理评估的空白,解决了现有基准仅关注长输入理解而忽视主动推理生成的局限,为研究模型在扩展推理链中的错误累积、记忆管理及路径探索机制提供了可控实验框架,推动了推理模型的能力边界探索。
衍生相关工作
该数据集催生了多项聚焦长推理机制的研究,例如基于算法步骤复杂度控制的模型评估框架、针对回溯和检索失败的改进方法,以及结合强化学习的推理链优化技术,为长上下文生成与程序合成领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



