LongCoT

github2026-04-20 更新2026-04-17 收录

下载链接：

https://github.com/LongHorizonReasoning/longcot

下载链接

链接失效反馈

官方服务：

资源简介：

LongCoT是一个用于衡量前沿大型语言模型在扩展思维链中保持连贯推理能力的基准。每个问题将一个短输入与一个长推理输出配对（通常跨越数万到数十万个标记），其中个别步骤可以单独处理，但困难来自于组合：保持计划在轨道上、跟踪状态、传播约束以及在无需外部工具或脚手架的情况下从错误中恢复。基准包含约2,500个专家设计的问题，涵盖五个领域（逻辑、计算机科学、化学、国际象棋、数学），每个问题都有确定性验证。

LongCoT is a benchmark dataset developed to evaluate the ability of state-of-the-art large language models (LLMs) to maintain coherent reasoning throughout extended chain-of-thought (CoT) sequences. Each problem pairs a short input with a lengthy reasoning output, typically spanning tens of thousands to hundreds of thousands of tokens. While individual steps can be solved independently, the core challenge stems from compositional complexity: keeping reasoning plans on track, tracking system state, propagating constraints, and recovering from errors without relying on external tools or scaffolding. This benchmark contains approximately 2,500 expert-designed questions covering five domains: logic, computer science, chemistry, chess, and mathematics, each with deterministic validation.

创建时间：

2026-04-16

原始信息汇总

LongCoT 数据集概述

数据集简介

LongCoT 是一个用于衡量前沿大语言模型在扩展思维链中维持连贯推理能力的基准测试。每个问题都包含一个简短输入和一个长推理输出（通常跨越数万到数十万个标记），其中单个步骤本身是可处理的，但困难来自于组合：保持计划正常进行、跟踪状态、传播约束以及在无需外部工具或脚手架的情况下从错误中恢复。

该基准包含约 2,500 个专家设计的跨五个领域的问题，每个问题都具有确定性验证。

领域与问题构成

数据集包含以下五个领域，每个领域有 500 个问题：

领域	问题数量	验证方法
`logic` (逻辑)	500	程序化验证（模拟/验证解决方案）
`cs` (计算机科学)	500	JSON 字符串匹配
`chemistry` (化学)	500	基于正则表达式的 SMILES 提取 + 规范匹配（+ 可选的大语言模型备用验证）
`chess` (国际象棋)	500	模板感知的确定性解析（整数/FEN/SAN/移动字典）+ 引擎检查
`math` (数学)	500	确定性数学比较（+ 可选的大语言模型备用验证）

每个领域的问题分为三个难度级别：easy（简单）、medium（中等）、hard（困难）。基于此划分定义了两个基准：

LongCoT-Mini：easy 子集（约 500 个问题），适用于快速评估。可通过 --difficulty longcot-mini 选择。
LongCoT：medium + hard（约 2,000 个问题），即完整基准。可通过 --difficulty longcot 选择。

数据获取与使用

数据集可通过 Hugging Face 获取：https://huggingface.co/datasets/LongHorizonReasoning/LongCoT

Python API

可通过 longcot Python 包加载和使用数据： python import longcot

加载问题（可按领域/难度筛选）

questions = longcot.load_questions(domain="logic", difficulty="easy")

验证单个答案

correct = longcot.verify(q, response_text)

批量验证

results = longcot.verify_batch(questions, responses)

所有领域均使用 solution = ... 作为答案格式。

评估与提交

评估指标

运行评估后报告以下指标：

指标	描述
`correct`	经验证为正确
`incorrect`	经验证为错误
`failed`	API 错误（未返回响应）
`wrong_formatting`	响应未包含 `solution = ...`（单独计数；仍会尝试验证）
`accuracy`	`correct / (correct + incorrect)` — 排除失败的调用
`overall_accuracy`	`correct / total`

提交结果

欢迎向 LongCoT 排行榜提交社区结果。提交需包含模型名称、提供商、每个问题的输出以及足够的信息以供复现。

引用

若在您的工作中使用 LongCoT，请引用： bibtex @article{motwani2026longcot, title = {LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning}, author = {Motwani, Sumeet Ramesh and Nichols, Daniel and London, Charles and Li, Peggy and Pizzati, Fabio and Blake, Acer and Hammoud, Hasan and McDonald, Tavish and Naik, Akshat and Ivanova, Alesia and Baskaran, Vignesh and Laptev, Ivan and Glatt, Ruben and Ben-Nun, Tal and Torr, Philip and Jaques, Natasha and Prabhu, Ameya and Bartoldson, Brian and Kailkhura, Bhavya and Schroeder de Witt, Christian}, year = {2026}, eprint = {2604.14140}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, url = {https://arxiv.org/abs/2604.14140} }

搜集汇总

数据集介绍

构建方式

在人工智能推理能力评估领域，LongCoT数据集通过专家精心设计的方式构建而成。该数据集涵盖了逻辑、计算机科学、化学、国际象棋和数学五个核心领域，每个领域均包含500个问题，总计约2500个问题。每个问题均由领域专家手工编制，确保其专业性与复杂性。构建过程强调问题的确定性验证，为每个问题配备了可编程验证、JSON字符串匹配、基于正则表达式的SMILES提取与规范化匹配、模板感知的确定性解析结合引擎检查，以及确定性数学比较等多种验证机制，从而保证了评估结果的可靠性与客观性。

特点

LongCoT数据集的核心特点在于其专注于评估大语言模型在长程思维链中的连贯推理能力。该数据集的问题设计遵循“简短输入，冗长推理输出”的原则，单个推理链可能包含数万至数十万个标记，其挑战性并非源于单个步骤的复杂性，而是来自对多个步骤的组合、状态跟踪、约束传播以及错误恢复等能力的综合考验。数据集提供了三个难度等级，并据此定义了适用于快速评估的LongCoT-Mini子集和完整的LongCoT基准，为模型能力提供了细致的分层评估标准。其跨领域的广泛覆盖和严谨的验证体系，使其成为衡量前沿模型长程推理性能的重要标尺。

使用方法

使用LongCoT数据集进行评估，主要通过其提供的命令行工具或Python API进行集成。用户首先需安装项目依赖并配置相应的模型API密钥。通过运行`run_inference.py`脚本，可以指定难度级别、领域和模型配置，将问题批量提交给目标大语言模型并获取推理响应。随后，利用`run_eval.py`脚本对模型输出进行自动化验证，计算包括准确率在内的多项指标。对于希望深度集成的用户，Python API提供了直接加载问题、调用自定义模型并进行批量验证的功能，支持通过`VerifyOptions`灵活配置数学和化学领域的备用评判机制。数据集要求模型输出遵循`solution = ...`的统一格式，以方便进行自动化判读。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务上的能力日益增强，评估其长程思维链的连贯性与稳定性成为人工智能领域的前沿课题。LongCoT数据集由牛津大学、劳伦斯利弗莫尔国家实验室等机构的研究团队于2026年联合创建，旨在系统性地衡量前沿大模型在跨领域长序列推理中的表现。该数据集聚焦于从简短输入生成超长推理输出的核心研究问题，覆盖逻辑、计算机科学、化学、国际象棋和数学五大领域，通过专家设计的近2500个问题，探究模型在规划跟踪、状态维护、约束传播及错误恢复等方面的复合能力，为推进大模型的长程推理研究提供了标准化评估基准。

当前挑战

LongCoT所针对的长程思维链推理领域，主要挑战在于模型需在缺乏外部工具或脚手架支持的情况下，维持跨越数万乃至数十万token的推理过程的整体一致性与逻辑严谨性，避免在复杂步骤组合中偏离轨道或累积错误。在数据集构建过程中，研究者面临多重挑战：一是设计兼具领域深度与广度、且能通过确定性方法验证的多样化问题，确保评估的可靠性与公平性；二是为化学与数学等需灵活判定的领域建立兼顾自动化验证与LLM回退的混合评估机制，以平衡效率与精度；三是定义统一的问题格式与验证接口，实现跨领域批量化评估的工程化部署。

常用场景

经典使用场景

在大型语言模型推理能力评估领域，LongCoT数据集被广泛用于测试模型在长链思维推理任务中的表现。研究者通常利用该数据集中的逻辑、计算机科学、化学、国际象棋和数学五个领域的复杂问题，评估模型能否在跨越数万甚至数十万token的推理过程中保持逻辑连贯性。通过对比模型在LongCoT-Mini简易子集和完整基准上的表现，研究者能够系统分析模型在不同难度层级下的推理稳定性与可扩展性。

实际应用

在实际应用层面，LongCoT为工业界优化大语言模型的复杂问题解决能力提供了关键参照。科技企业可依据该基准的评估结果，针对性改进模型在科学计算、代码生成、药物发现等领域的多步推理性能。教育机构也能借鉴其问题设计范式，开发培养系统性思维的教学工具。该数据集通过标准化验证流程，确保了不同模型性能比较的可靠性与可复现性。

衍生相关工作

基于LongCoT基准已衍生出多项重要研究工作，包括长序列推理的注意力机制优化、思维链压缩算法设计、以及跨领域知识迁移方法探索。研究团队通过分析模型在该数据集上的失败案例，提出了多种增强推理连贯性的训练策略。同时，该基准促进了开源社区形成标准化评估生态，催生了针对特定领域的长程推理改进模型，为后续更复杂的认知架构研究奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集