Schoenfeld Reasoning Annotated Corpus
收藏github2025-09-22 更新2025-10-01 收录
下载链接:
https://github.com/MingLiiii/Schoenfeld_Reasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含完整的SAT问题数据(含技能、领域和难度等元数据)、DeepSeek-R1模型的完整响应,以及针对选定响应的段落级和句子级认知标注(如计划、实施、验证等七个认知标签),构成了首个用于机器推理细粒度分析的公开基准数据集。
This dataset encompasses complete SAT problem data with metadata including skills, domains, and difficulty levels, full responses from the DeepSeek-R1 model, as well as paragraph-level and sentence-level cognitive annotations for selected responses (e.g., seven cognitive tags such as planning, execution, verification, etc.). It constitutes the first public benchmark dataset for fine-grained analysis of machine reasoning.
创建时间:
2025-09-16
原始信息汇总
Schoenfeld Reasoning 数据集概述
数据集基本信息
- 项目名称: Schoenfeld Reasoning
- 研究主题: 基于Schoenfeld片段理论分析推理模型的思维过程
- 学术会议: EMNLP 2025
- 论文链接: https://arxiv.org/abs/2509.14662
研究背景
- 大型推理模型生成大量思维链推理,但缺乏理解这些思维结构的原则性框架
- 首次应用Schoenfeld片段理论(人类数学问题解决的经典认知框架)来分析LRM的推理轨迹
- 使用七个认知标签对模型生成的数学问题解决方案中的数千个句子和段落进行标注
数据集内容
数据文件
- SAT.json: 完整的SAT数据,包含SAT问题及相关元数据
- responses_original/SAT_deepseekR1_results.json: 选定SAT问题的DeepSeek-R1响应
- responses_labeled: 包含所有分段响应及相应段落级和句子级片段标注的目录
数据特征
- SAT数据包含技能、领域和难度等元数据
- 提供DeepSeek-R1的完整响应
- 包含选定响应的段落级和句子级片段标注
- 标注使用七个认知标签:计划、实施、验证等
研究亮点
- 最早探索将Schoenfeld片段理论应用于LRM推理轨迹的研究
- 提供基于理论的分析框架,从认知角度理解LRM思维过程
- 发布开放标注协议和包含数千个标注的标注语料库
引用信息
bibtex @article{li2025understanding, title={Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfelds Episode Theory}, author={Li, Ming and Zhang, Nan and Fan, Chenrui and Jiao, Hong and Fu, Yanbin and Peters, Sydney and Xu, Qingshu and Lissitz, Robert and Zhou, Tianyi}, journal={arXiv preprint arXiv:2509.14662}, year={2025} }
搜集汇总
数据集介绍

构建方式
在认知科学与人工智能交叉研究领域,该数据集通过系统化标注框架构建而成。研究团队基于Schoenfeld的认知片段理论,对大型推理模型DeepSeek-R1生成的数学问题求解过程进行多层次标注。原始数据来源于爬取的SAT考试题库,涵盖不同技能领域与难度层级的数学问题。通过对模型输出的数千个段落与句子进行人工标注,形成包含规划、执行、验证等七类认知标签的细粒度语料库。
特点
该数据集作为首个基于认知理论的机器推理分析基准,具有显著的理论与实践价值。其核心特征体现在采用经典数学问题解决框架Schoenfeld理论构建标注体系,实现人类认知过程与机器推理的跨维度对比。数据集不仅包含原始SAT问题与模型响应,更提供段落级与句子级的双重认知状态标注。这种多粒度标注结构能清晰展现推理过程中的认知状态转换规律,为理解模型思维动态提供独特视角。
使用方法
研究者可通过解析标准JSON格式文件便捷使用该数据集。SAT.json文件提供完整的原始考题及元数据,responses_original目录存储模型原始输出,responses_labeled目录则包含分段响应与认知标注。用户可基于标注指南开展认知模式分析,通过追踪不同认知标签的转换路径探索模型推理机制。该数据集特别适用于开发可控推理系统的研究,支持对模型决策过程的可解释性分析。
背景与挑战
背景概述
在人工智能推理模型快速发展的背景下,Schoenfeld Reasoning Annotated Corpus于2025年由马里兰大学等研究团队构建,旨在通过Schoenfeld的认知情节理论解析大语言模型的数学推理过程。该数据集首次将人类数学问题解决的经典认知框架应用于机器推理轨迹分析,通过标注数千条模型生成的解题步骤,为可解释人工智能提供了理论支撑的评估基准,推动了推理系统透明化研究的发展。
当前挑战
该数据集致力于解决数学推理模型认知过程解析的核心难题,需克服人类认知理论与机器推理轨迹的映射复杂性。在构建过程中,研究团队面临细粒度认知标签标注的一致性维护挑战,包括七类认知状态的边界界定,以及海量链式推理文本的结构化分段处理,这些因素共同构成了高质量认知标注数据集创建的技术壁垒。
常用场景
经典使用场景
在数学推理模型研究领域,Schoenfeld Reasoning Annotated Corpus为分析大型推理模型的思维过程提供了标准化评估框架。该数据集通过应用Schoenfeld的认知片段理论,对DeepSeek-R1模型生成的数学问题解决方案进行了精细标注,涵盖了规划、实施、验证等七个认知标签,为研究机器推理的认知模式奠定了数据基础。
实际应用
在实际应用层面,该数据集为开发更可靠的数学问题求解系统提供了重要支撑。教育技术领域可利用其标注框架构建智能辅导系统,通过分析学生的解题认知模式提供个性化指导;人工智能安全领域则可借鉴其方法论评估模型推理的稳健性,确保关键决策场景下推理过程的透明可信。
衍生相关工作
基于该数据集的理论框架,衍生出多个认知启发的机器推理研究方向。后续研究可扩展至不同学科的复杂问题求解分析,开发基于认知状态监控的自适应推理系统,或构建跨模态的思维过程评估基准,这些工作将共同推动可解释人工智能在复杂推理任务中的深入应用。
以上内容由遇见数据集搜集并总结生成



