five

Quark

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/Michael-Kozu/Quark
下载链接
链接失效反馈
官方服务:
资源简介:
Quark 是一个专注于简洁思维链推理(CCoT)的数据集,旨在提高推理过程中的令牌效率。数据集包含 19,447 行数据,覆盖科学、金融、数学、通用推理和代码等多个领域。通过压缩思维链块(<think>),Quark 在保持最终答案不变的情况下,显著减少了推理通道的令牌使用(节省 71.5%)。数据集采用 ShareGPT 的对话格式,包含用户输入和模型回复,并分为训练(80%)、验证(10%)和测试(10%)三部分。适用于文本生成和问答任务。
创建时间:
2026-04-25
原始信息汇总

好的,这是数据集 Quark 的详情总结:

Quark 数据集详情

概述

Quark 是一个用于训练精简思维链(CCoT)提升 token 效率的旗舰数据集。其核心目标是在相同的输出长度内嵌入更多推理步骤,使模型在每个 token 上能进行更深度的思考,而非消耗更多 token 来表达思考过程。通过与上游数据源相比,Quark 将 <think> 块中的推理 token 减少了约 62%,同时保留了最终答案的原始内容。

核心特性

  • 精简思维链 (CCoT):将冗长的推理过程改写为密集、逐步的形式,在不改变逻辑结构的前提下,大幅缩减 token 消耗。
  • Token 效率:在推理通道中实现了 71.5% 的 token 节省(逐块计算),在整个消息层面实现了 42.1% 的节省。
  • v2.0 版本:扩展至 19,447 条数据,来自 11 个上游来源,涵盖金融、博士级科学、多语言STEM、代码、数学和通用推理等领域。使用 DeepSeek V4 Flash 模型进行压缩和过滤。

数据架构

  • 格式:ShareGPT 格式(JSONL),每条数据包含 conversations 列表。
  • 字段
    • from: "human":用户提问。
    • from: "gpt":模型回答,包含被重写的 <think> 推理块和保存一致的 <think> 之后的最终答案。
  • 系统提示:约 50% 的数据没有系统提示,另外 50% 使用了六种短通用提示之一(例如 “You are a helpful assistant.”)。

数据统计 (v2.0)

统计项 数值
总行数 19,447
推理通道 token 节省 (逐块) 71.5%
整体消息 token 节省 42.1%
<think> tokens (压缩前) 33,389,698
<think> tokens (压缩后) 9,521,371
数据来源数 11 个上游数据集
语言 英语

领域分布

领域 行数 占比
科学 (博士级 + 多语言 STEM) 7,333 37.7%
金融 / 经济学 4,855 25.0%
数学 (通用 + 奥数 + 调和) 2,478 12.7%
通用推理 2,325 12.0%
代码 (开源 + 竞赛) 2,456 12.6%

数据拆分

拆分 行数 占比 用途
train 15,557 80% 主训练集
validation 1,945 10% 超参数调优
test 1,945 10% 最终评估
  • 说明:拆分使用固定随机种子 (42) 进行打乱,各个拆分的 Schema 一致。

许可与标签

  • 许可:MIT
  • 语言:英语
  • 标签koz u, reasoning, chain-of-thought, ccot, token-efficiency, sft
  • 任务类别text-generation, question-answering
搜集汇总
数据集介绍
main_image_url
构建方式
Quark数据集由Kozu AI构建,旨在提供一种名为“简洁思维链推理”(CCoT)的高效推理数据。该数据集v2.0版本包含19,447条样本,源自11个上游数据集,涵盖金融、博士级科学、多语言STEM、代码、数学及通用推理等多个领域。构建过程中,利用DeepSeek V4 Flash作为压缩器,将每个<think>思维块重写为密集、步进式的形式,在保持相同逻辑结构的前提下,对推理通道实现了约71.5%的token压缩,而最终答案部分则保持字节级一致。经过严格的分块级安全防护与事后质量过滤,确保数据质量。
特点
Quark数据集的核心特点在于其卓越的token效率。相比于传统多步推理轨迹常消耗4至10倍于最终答案的token数,Quark通过CCoT技术使模型在同等输出范围内包含更多推理步骤,实现了“每token更深入思考”。具体而言,推理通道内token节省率达71.5%,整体消息级节省达42.1%。此外,数据集采用ShareGPT格式,系统提示被有意保持极简,约半数样本无系统消息,另一半仅携带简短通用提示,这有助于模型在推理时无论是否包含系统前缀,均能自主生成CCoT风格的思维块。
使用方法
Quark数据集以JSONL格式提供,遵循ShareGPT对话模式,每条记录包含conversations字段,其中用户消息标注为'human',模型回复标注为'gpt'。回复中包含<think>标签内的压缩推理轨迹与标签后的最终答案。数据集已划分为80%训练集(15,557条)、10%验证集(1,945条)和10%测试集(1,945条),采用固定种子42进行混洗。用户可将其直接用于有监督微调(SFT),训练模型以生成更高效的推理路径,尤其适用于需要控制输出token成本的推理场景。
背景与挑战
背景概述
Quark数据集由Kozu AI团队于2024年推出,核心聚焦于精简思维链推理(CCoT)与令牌效率的提升。该数据集旨在应对大规模语言模型推理过程中因冗长思维链导致的高计算成本问题,通过将推理步骤压缩至更紧凑的格式,保留相同逻辑结构的同时,使模型在相同输出长度内承载更多推理信息。数据集包含19,447条样本,覆盖金融、科学、数学、代码及通用推理等11个上游来源,采用DeepSeek V4 Flash作为压缩器,实现了推理通道内71.5%的令牌节省。Quark的提出为高效推理数据集建设提供了新范式,显著推动了令牌经济性在监督微调中的应用与研究方向。
当前挑战
Quark数据集所解决的领域核心挑战在于:传统思维链数据集通常包含冗长的推理过程,导致高推理成本与低令牌利用率,制约模型在资源受限场景下的部署。Quark通过CCoT技术实现推理步骤的密度提升,在不牺牲逻辑完整性前提下有效降低令牌开销。构建过程中面临的主要挑战包括:1)跨领域推理逻辑的差异化处理,需在压缩时保持各领域推理的语义保真度;2)压缩算法的选择与优化,需平衡压缩率与推理质量;3)质量过滤机制的建立,确保压缩后的推理链仍具备可解释性与准确性。这些挑战的克服使得Quark成为兼顾效率与效果的标杆性推理数据集。
常用场景
经典使用场景
Quark数据集专为简洁思维链(Concise Chain-of-Thought, CCoT)推理场景而设计,旨在优化大语言模型在推理过程中消耗的token数量。该数据集包含约1.9万条高质量推理样本,涵盖金融、科学、数学、代码与通用推理等多元领域。每一组对话均在保持最终答案字节级不变的前提下,将模型内部的<think>推理链压缩为高密度、分步式的表达形式,从而在不牺牲逻辑完整性的条件下,显著降低推理通道的token开销。研究者可利用Quark对预训练语言模型进行监督微调(SFT),训练模型学会以更紧凑的token预算执行深度推理,提升推理效率与输出密度的平衡。
解决学术问题
Quark数据集着力攻克大语言模型推理过程中因冗长思维链导致的高能耗与低效问题。传统多步推理轨迹常产生数倍于最终答案的token,造成计算资源的大量浪费。该数据集通过构建简洁思维链(CCoT)范式,将推理步骤压缩约62%,在维持相同逻辑结构的前提下大幅削减token消耗,从而为token效率优化提供规模化训练语料。其发布推动了模型“每token推理更深”的学术研究,即在受限的推理预算内实现更高质量的逻辑延展,为高效推理模型的构建提供了关键数据基础与评估基准。
衍生相关工作
Quark数据集的发布催生了一系列聚焦于推理压缩与token效率的后续研究。相关工作包括基于CCoT范式的模型蒸馏方法,探索将大型教师模型的浓缩推理能力迁移至更小的学生网络;以及动态推理预算分配技术,根据问题难度自适应调节思维链长度。此外,Quark的压缩策略被借鉴至跨语言推理任务中,衍生出多语言CCoT变体。在评估方面,研究者建立了以推理-输出token比为核心指标的新评价体系,相关基准测试集也逐步涌现,推动了大语言模型高效推理这一研究方向从数据构建到方法论的完整学术链条形成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作