five

ansulev/opus-4.7-reasoning-cot

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ansulev/opus-4.7-reasoning-cot
下载链接
链接失效反馈
官方服务:
资源简介:
Opus 4.7链式思考推理数据集包含2,405个由`claude-opus-4-7`生成的链式思考推理轨迹,涵盖了数学、科学和形式学科等难题。每个样本包括问题→`<think>`块→答案对,其中`<think>`块包含模型的完整思考过程(重述→方法→逐步推导→验证),而答案部分则以独立课程的形式呈现,以粗体结果开头。数据集通过严格的生成和质量控制流程创建,包括模型生成、质量门控和保留策略。数据集的来源包括多个公开数据集,如TheoremQA、MMLU、GPQA等,且所有提示都经过去重处理,仅包含难题和博士级别的问题。数据集主要用于非商业研究和教育用途,遵循Anthropic使用政策。

The Opus 4.7 Chain-of-Thought Reasoning dataset contains **2,405** chain-of-thought reasoning traces produced by **`claude-opus-4-7`** on hard reasoning prompts spanning math, science, and formal subjects. Each sample is a problem → `<think>` block → polished answer pair, where the `<think>` block contains Opus 4.7s full working (Restatement → Approach → Step-by-step derivation → Verification) and the post-`</think>` answer is written as a standalone lesson starting with the result in bold. The dataset was generated through a rigorous process involving model generation, quality gating, and retention strategies. It sources prompts from multiple public datasets like TheoremQA, MMLU, GPQA, etc., with deduplication and a focus on hard and PhD-level problems. The dataset is intended for non-commercial research and education, under the Anthropic Usage Policy.
提供机构:
ansulev
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由2,405条思维链推理轨迹构成,全部由claude-opus-4-7模型在最大努力级别下生成。数据收集借助Claude Code CLI接口,该接口能够直接输出模型原始的<think>思考块内容,弥补了API仅返回摘要性思考的不足。生成过程中,模型被要求以撰写详细授课笔记的形式,对每个问题进行重述、方法选择、逐步推导与验证,并在思考块后给出精炼解答。每一轮生成均经过另一轮claude-p调用作为评判器,依据标题完整性、推导严谨性、事实独立性、解答实质性、正确性与教学价值六项标准进行质量筛选,仅保留评判结果为优秀或较弱的样本,拒绝结果最多经两次重试后排除。
特点
数据集以ChatML消息对格式存储,每条记录包含用户提问与助手回答,助手回答中嵌入了结构化思考块与精炼解答。元数据字段丰富,涵盖问题ID、学科类别、难度等级(博士级或困难)、来源数据集、模型名称、生成耗时及输入输出令牌数等信息。数据来源涵盖五个知名推理基准数据集,包括TheoremQA、MMLU(困难科目)、GPQA、NuminaMath-CoT及MATH-500,以及一份与Opus 4.6的交叉验证集,经SHA-256去重后保留。样本难度均为高级,无简单或中等难度题目。输出令牌中位数达1,839,最长样本达57,069个令牌,总生成时间约23.5小时。
使用方法
数据集可通过HuggingFace Datasets库轻松加载,默认配置下自动划分训练集(2,165条)、验证集(120条)与测试集(120条),亦可选择full配置一次性加载全部2,405条数据。加载后每条记录通过'messages'字段访问完整的对话结构,适用于微调大语言模型的推理能力,或作为蒸馏训练中的教师轨迹。用户可依据元数据中的学科类别、难度等级、来源数据集等字段进行子集筛选,灵活适配不同研究需求。需注意,生成内容受Opus 4.7风格偏好影响,且未经人工核验,使用时应结合自身判断;非商业研究与教育用途通常被允许,但需遵守Anthropic使用政策。
背景与挑战
背景概述
该数据集由研究者利用Anthropic开发的Claude Opus 4.7模型,于2026年4月左右创建,旨在收集高质量、结构化的链式思维推理轨迹,以推动复杂推理任务的研究。核心研究问题聚焦于如何利用大型语言模型生成可解释、教学化的逐步推理过程,从而提升模型在数学、科学与形式化推理领域的表现。数据源涵盖MATH-500、MMLU、GPQA等权威基准测试,经过去重与质量筛选后,最终包含2,405个样本。该数据集为开源社区提供了稀缺的、附带详细验证步骤的硬推理范例,对理解与改进语言模型的深度推理能力具有重要参考价值。
当前挑战
该数据集的核心挑战包括:1)所解决的领域问题——大型语言模型在应对数学、科学等复杂推理任务时,常因缺乏结构化、可验证的中间步骤而产生事实性错误或逻辑跳跃,该数据集通过强制要求模型生成包含重述、方法、逐步推导与验证的完整思维链,提升了推理的透明度和严密性。2)构建过程中的挑战——为避免模型记忆已知答案,仅选取被判定为困难或博士级别的题目;同时需通过LLM-as-judge机制对生成内容进行六维质量审核,并针对不合格样本进行最多两次重试,仅保留优质结果,确保了数据集的有效性与教学价值。
常用场景
经典使用场景
在人工智能与自然语言处理领域,链式思维推理能力的训练与评估一直是提升大语言模型逻辑严密性的核心挑战。opus-4.7-reasoning-cot数据集正是为应对这一挑战而精心构建的经典资源,其最典型的应用场景在于为研究者提供高质量、结构化的链式思维推理轨迹,用于训练和微调大型语言模型。该数据集收录了由claude-opus-4-7生成的2405条涵盖数学、科学与形式学科的复杂推理样本,每条样本均包含完整的问题描述、明确的<think>推理块以及精炼的答案。研究者能够借助这一数据集开展‘思维链蒸馏’实验,将顶级推理模型的内在推理过程迁移至更轻量级的模型,例如作为教师模型输出,训练学生模型逐步推导的能力。通过其预设的训练、验证与测试划分,该数据集支持标准的监督学习流程,为构建具备严谨逻辑链条的对话生成与问答系统奠定了坚实基础。
衍生相关工作
围绕opus-4.7-reasoning-cot数据集所衍生的工作,主要集中在推理能力的蒸馏与多任务泛化前沿。该数据集的高质量思维链轨迹催生了对‘思维链蒸馏’机制的系统性研究,研究者通过将其作为教师输出训练小型学生模型,探索了如何在保持参数规模缩减的同时复现复杂推理能力,相关成果推动了高效推理模型的发展。数据集中涵盖的数学定理、物理化学与逻辑学问题,也促使了多任务推理框架的提出,研究者以此为基石构建了跨学科推理的统一评测基准,深入分析了模型在不同推理需求之间的知识迁移效应。此外,基于数据集的四部分强制推理格式,后续工作进一步扩展了结构化推理模板的适用性,推出了结合‘验证’步骤的自我纠错机制与多轮交互式推理方法,这些成果共同构建了大语言模型推理能力从生成到验证的闭环研究图谱。
数据集最近研究
最新研究方向
当前,随着大型语言模型在复杂推理任务中的能力备受关注,推理轨迹数据的生成与质量评估成为前沿热点。该数据集聚焦于使用Claude Opus 4.7模型在高难度数学、科学与形式化推理问题上生成的链式思维轨迹,涵盖定理证明、竞赛数学及博士级科学问答等挑战性领域。其独特之处在于采用CLI接口捕获完整思考过程与后处理精炼解答,并引入LLM作为评判者进行多维度质量把关,过滤低质输出。这一方法呼应了近期对透明化、可复现推理过程以及合成数据质量控制的迫切需求,为提升模型在专业学术推理场景中的表现提供了宝贵训材,同时揭示了模型内部推理机制与潜在偏好偏差,具有推动AI教学与评估范式演进的重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作