CoTton-64k-6725-Collective
收藏Hugging Face2025-06-08 更新2025-06-09 收录
下载链接:
https://huggingface.co/datasets/NewstaR/CoTton-64k-6725-Collective
下载链接
链接失效反馈官方服务:
资源简介:
CoTton-64k是一个包含64,344个软推理对话例子的数据集,采用ShareGPT格式。每个条目展示了高质量链式思维(Chain-of-Thought, CoT)推理的自然语言交流,发生在用户和模型之间。该数据集是从开放的LLMs中精炼而成,包括Qwen3 235B A22B、AM Thinking等。这个版本在数据集处理、推理痕迹的集成、覆盖面的平衡以及数据集大小方面都有显著改进。
创建时间:
2025-06-07
搜集汇总
数据集介绍

构建方式
在自然语言推理领域,CoTton-64k数据集通过精心设计的蒸馏流程构建而成,其64,344条高质量样本源自多个先进大语言模型的推理轨迹。该数据集采用ShareGPT对话格式,每条记录均包含用户与模型之间的多轮交互,展现了链式思维推理的完整过程。构建过程中融合了Qwen3、AM Thinking、Deepseek R1等六个核心模型的输出,并运用了从CoTton-MISC-SCIENCE-5k中总结的改进清洗技术,确保推理链条的逻辑连贯性与语言自然度。
特点
作为软推理对话的精选集合,该数据集最显著的特征在于其覆盖范围的平衡性与内容质量的优越性。数据集均衡囊括了通用对话、条件推理和STEM任务三大领域,每条推理轨迹都经过严格筛选,呈现出生动自然的思维演进过程。其命名巧妙融合了链式思维(CoT)的核心概念与棉花的柔软特性,隐喻推理过程的柔性与自然。相较于前代38k版本,本数据集在规模扩展近一倍的同时,保持了更高的逻辑一致性和语言流畅度。
使用方法
研究者可将该数据集直接应用于大语言模型的推理能力训练与评估,特别适合用于链式思维推理的监督微调。使用时应保持对话结构的完整性,充分利用多轮交互中蕴含的推理逻辑。数据集采用标准JSON格式存储,每条数据包含唯一标识符和完整的对话序列,可直接接入主流训练框架。建议结合提示工程技巧,重点挖掘对话中隐含的推理模式,从而有效提升模型的多步推理能力与解释性生成质量。
背景与挑战
背景概述
随着大语言模型在复杂推理任务中的需求日益增长,CoTton-64k-6725-Collective数据集于2025年由OpenThoughts等研究团队联合构建,旨在提供高质量的链式思维(Chain-of-Thought)推理对话数据。该数据集汇集了来自Qwen3、Deepseek R1等多个先进模型生成的64,344条推理轨迹,覆盖通用对话、条件推理及STEM任务等多领域内容,显著推动了可解释人工智能与推理模型的发展。
当前挑战
该数据集核心挑战在于解决自然语言推理中逻辑连贯性与多样性的平衡问题,需确保链式思维轨迹既严格符合逻辑又涵盖丰富场景。构建过程中面临多源模型输出质量不一致、噪声过滤以及跨领域知识整合等难题,同时需保持对话结构的自然性与学术严谨性。
常用场景
经典使用场景
在自然语言处理领域,CoTton-64k数据集作为高质量思维链推理对话的集合,主要应用于训练和评估大语言模型的推理能力。该数据集通过模拟真实的人机对话场景,涵盖通用对话、条件推理和STEM任务等多个维度,为模型提供了丰富的上下文学习材料。研究者利用这些对话轨迹来增强模型的逐步推理能力,使其在复杂问题解决中展现出更接近人类的思考模式。
解决学术问题
该数据集有效解决了大语言模型在复杂推理任务中存在的逻辑断裂和解释性不足问题。通过提供大量高质量的思维链示例,它帮助模型学习如何将复杂问题分解为可管理的子步骤,从而提升推理的透明度和准确性。这一进展对可解释人工智能领域具有重要意义,为构建更可靠、可信的AI系统提供了数据基础。
衍生相关工作
该数据集催生了多个重要研究方向,包括OpenThoughts推理模型框架和Light-R1课程学习方案。基于CoTton数据开发的OpenCodeReasoning和OpenMathReasoning等项目进一步扩展了其在编程和数学推理领域的应用边界。这些衍生工作共同推动了思维链蒸馏技术的创新发展,形成了完整的推理增强技术生态。
以上内容由遇见数据集搜集并总结生成



