longcot
收藏LongCoT 数据集概述
数据集基本信息
- 数据集名称:LongCoT
- 许可证:MIT
- 主要任务类别:问答、其他
- 语言:英语
- 标签:推理、基准测试、评估、程序化验证、污染检测
- 数据规模:1K < n < 10K
数据集简介
LongCoT 是一个用于评估模型在逻辑、计算机科学、化学、国际象棋和数学领域进行长视野推理能力的基准测试。该数据集专注于那些因组合性而产生难度的问题,例如状态跟踪、约束传播、计划维持以及在长推理轨迹中避免错误累积。
配置与划分
数据集提供六个配置:
all:包含所有领域logic:逻辑cs:计算机科学chemistry:化学chess:国际象棋math:数学
每个配置包含三个难度划分:
easy:简单medium:中等hard:困难
数据文件格式
数据以 Parquet 格式存储,便于浏览和使用 datasets 库加载。
数据模式
数据行采用扁平化的公共模式,包含以下字段:
question_id:稳定的问题标识符domain:所属领域(logic、cs、chemistry、chess、math之一)difficulty:难度等级(easy、medium、hard之一)template:模板名称prompt:展示给模型的提示answer:序列化为 JSON 的规范答案负载canary:附加在每个示例上的公共基准测试金丝雀 GUID
使用方式
可通过 Hugging Face datasets 库加载整个基准测试或单个领域的数据。加载整个基准测试的示例代码:
python
from datasets import load_dataset
ds = load_dataset("LongHorizonReasoning/longcot", "all")
加载单个领域(如数学)的示例代码: python from datasets import load_dataset ds = load_dataset("LongHorizonReasoning/longcot", "math")
验证与评估
此数据集卡片仅针对数据发布。要评估模型输出,需使用规范代码库中的验证器和评估工具。规范代码库位于:https://github.com/LongHorizonReasoning/longcot。该仓库包含问题加载工具、确定性和程序化验证器、评估脚本以及提交和排行榜工作流程。
引用
如果使用 LongCoT,请引用以下论文: bibtex @article{motwani2026longcot, title = {LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning}, author = {Motwani, Sumeet Ramesh and Nichols, Daniel and London, Charles and Li, Peggy and Pizzati, Fabio and Blake, Acer and Hammoud, Hasan and McDonald, Tavish and Naik, Akshat and Ivanova, Alesia and Baskaran, Vignesh and Laptev, Ivan and Glatt, Ruben and Ben-Nun, Tal and Torr, Philip and Jaques, Natasha and Prabhu, Ameya and Bartoldson, Brian and Kailkhura, Bhavya and Schroeder de Witt, Christian}, year = {2026}, eprint = {2604.14140}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, url = {https://arxiv.org/abs/2604.14140} }




