LongCoT
收藏LongCoT 数据集概述
数据集简介
LongCoT 是一个用于衡量前沿大语言模型在扩展思维链中维持连贯推理能力的基准测试。每个问题都包含一个简短输入和一个长推理输出(通常跨越数万到数十万个标记),其中单个步骤本身是可处理的,但困难来自于组合:保持计划正常进行、跟踪状态、传播约束以及在无需外部工具或脚手架的情况下从错误中恢复。
该基准包含约 2,500 个专家设计的跨五个领域的问题,每个问题都具有确定性验证。
领域与问题构成
数据集包含以下五个领域,每个领域有 500 个问题:
| 领域 | 问题数量 | 验证方法 |
|---|---|---|
logic (逻辑) |
500 | 程序化验证(模拟/验证解决方案) |
cs (计算机科学) |
500 | JSON 字符串匹配 |
chemistry (化学) |
500 | 基于正则表达式的 SMILES 提取 + 规范匹配(+ 可选的大语言模型备用验证) |
chess (国际象棋) |
500 | 模板感知的确定性解析(整数/FEN/SAN/移动字典)+ 引擎检查 |
math (数学) |
500 | 确定性数学比较(+ 可选的大语言模型备用验证) |
每个领域的问题分为三个难度级别:easy(简单)、medium(中等)、hard(困难)。基于此划分定义了两个基准:
- LongCoT-Mini:
easy子集(约 500 个问题),适用于快速评估。可通过--difficulty longcot-mini选择。 - LongCoT:
medium+hard(约 2,000 个问题),即完整基准。可通过--difficulty longcot选择。
数据获取与使用
数据集可通过 Hugging Face 获取:https://huggingface.co/datasets/LongHorizonReasoning/LongCoT
Python API
可通过 longcot Python 包加载和使用数据:
python
import longcot
加载问题(可按领域/难度筛选)
questions = longcot.load_questions(domain="logic", difficulty="easy")
验证单个答案
correct = longcot.verify(q, response_text)
批量验证
results = longcot.verify_batch(questions, responses)
所有领域均使用 solution = ... 作为答案格式。
评估与提交
评估指标
运行评估后报告以下指标:
| 指标 | 描述 |
|---|---|
correct |
经验证为正确 |
incorrect |
经验证为错误 |
failed |
API 错误(未返回响应) |
wrong_formatting |
响应未包含 solution = ...(单独计数;仍会尝试验证) |
accuracy |
correct / (correct + incorrect) — 排除失败的调用 |
overall_accuracy |
correct / total |
提交结果
欢迎向 LongCoT 排行榜提交社区结果。提交需包含模型名称、提供商、每个问题的输出以及足够的信息以供复现。
引用
若在您的工作中使用 LongCoT,请引用: bibtex @article{motwani2026longcot, title = {LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning}, author = {Motwani, Sumeet Ramesh and Nichols, Daniel and London, Charles and Li, Peggy and Pizzati, Fabio and Blake, Acer and Hammoud, Hasan and McDonald, Tavish and Naik, Akshat and Ivanova, Alesia and Baskaran, Vignesh and Laptev, Ivan and Glatt, Ruben and Ben-Nun, Tal and Torr, Philip and Jaques, Natasha and Prabhu, Ameya and Bartoldson, Brian and Kailkhura, Bhavya and Schroeder de Witt, Christian}, year = {2026}, eprint = {2604.14140}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, url = {https://arxiv.org/abs/2604.14140} }




