Michael-Kozu/Quark
收藏Hugging Face2026-04-28 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Michael-Kozu/Quark
下载链接
链接失效反馈官方服务:
资源简介:
Quark数据集是为简洁思维链推理(CCoT)和令牌效率而设计的。该数据集旨在在相同的输出足迹内打包额外的推理步骤,使模型能够在每个令牌上思考得更远。数据集包含4,919行,与原始源相比,令牌数量显著减少(节省了87.7%)。数据集为英文,格式为JSONL,并包括训练、验证和测试的分割。创建过程包括规范化、提取、压缩、匿名化、去重和导出。数据集根据MIT许可证发布。
The Quark dataset is designed for concise chain-of-thought reasoning (CCoT) and token efficiency. It packs additional reasoning steps within the same output footprint, enabling models to think further per token. The dataset includes 4,919 rows, with a significant reduction in tokens (87.7% saved) compared to the original source. It is in English, formatted as JSONL, and includes splits for training, validation, and testing. The creation process involves normalization, extraction, compression, anonymization, deduplication, and export. The dataset is released under the MIT License.
提供机构:
Michael-Kozu
搜集汇总
数据集介绍

构建方式
Quark数据集由Kozu AI团队精心构建,旨在解决传统思维链数据集推理过程冗长、token开销过大的问题。该数据集基于11个上游来源(涵盖金融、博士级科学、多语言STEM、代码、数学及通用推理等领域)的原始数据,共计19,447条样本。构建过程中,团队采用DeepSeek V4 Flash模型作为压缩器,对每条数据中<think>标签内的推理轨迹进行密集化、步骤化的重写,通过严格的逐块安全防护和事后质量过滤,确保逻辑结构完整的同时大幅压缩token数量。最终,推理通道内的token数平均减少约71.5%,整条消息减少42.1%,而</think>之后的最终答案则与源数据保持字节级一致。数据集采用ShareGPT格式存储,约半数样本不含系统提示,其余携带六种简短通用提示之一,以增强模型在各种场景下的泛化能力。
特点
Quark数据集的显著特征在于其“精华思维链”设计理念,即在压缩推理空间的同时提升推理密度。与传统思维链数据集相比,Quark在输出token预算不变的情况下,使模型能够进行更深入的逻辑推演,实现了“每token推理更深一步”的效果。数据集的领域分布广泛而均衡,科学类占比最高(37.7%),涵盖博士级科学和多语言STEM;金融/经济类占25.0%;数学、代码和通用推理分别占12.7%、12.6%和12.0%,这种多元化构成确保了模型在不同知识领域的推理能力得到全面训练。此外,数据集的拆分策略科学合理,训练集占80%,验证集和测试集各占10%,均采用固定随机种子进行混洗,保证了实验的可重复性和评估的可靠性。
使用方法
Quark数据集适用于监督微调(SFT)场景,尤其适合训练具备高效推理能力的大语言模型。用户可通过HuggingFace Datasets库直接加载该数据集,其ShareGPT格式使得数据可以无缝集成到主流的大模型训练框架中。使用时应重点关注<think>标签内的压缩推理轨迹,模型通过学习这些密集的思维链,能够在推理阶段以更少的token产出同等质量的推理过程。建议在训练时保持系统提示的多样性设置(约半数无系统提示,半数携带通用提示),以增强模型在实际部署中的鲁棒性。数据集已预先划分为训练(15,557条)、验证(1,945条)和测试(1,945条)子集,用户可直接按需使用。对于有特殊需求的用户,亦可基于源数据的领域标签自行构建定制化的训练混合方案。
背景与挑战
背景概述
Quark数据集由Kozu AI团队于2024年创建,专注于解决大型语言模型推理过程中的令牌效率问题。该数据集包含19,447条英文样本,覆盖金融、博士级科学、多语言STEM、代码、数学及通用推理等11个上游数据源。其核心研究问题在于如何在不牺牲推理质量的前提下,显著压缩链式思维(Chain-of-Thought)推理过程中的令牌消耗。Quark通过采用深度求索V4 Flash作为压缩器,并辅以严格的逐块质量过滤机制,将推理通道的令牌量平均减少71.5%,同时保持最终答案的字节级一致性。该数据集为推理密集型任务提供了一种经济高效的训练方案,在自然语言处理领域具有重要影响力。
当前挑战
Quark数据集所解决的领域问题是大语言模型推理成本过高这一瓶颈。传统链式思维数据集的多步推理轨迹往往消耗最终答案4至10倍的令牌数量,导致高昂的计算开销。Quark面临的构建挑战包括:如何在保持逻辑链条完整性的前提下实现令牌压缩,以及如何确保压缩后的推理序列不丢失关键推理步骤。此外,数据集构建过程中还需要处理来自11个异构数据源的格式统一问题,并设计合理的质量过滤策略以剔除低质量样本。这些挑战的共同解决使得Quark能够在不影响模型推理能力的情况下,实现训练与推理阶段的令牌效率双赢。
常用场景
经典使用场景
Quark数据集的核心应用场景在于为大型语言模型提供精炼的思维链(Concise Chain-of-Thought, CCoT)训练数据。该数据集将多步骤推理轨迹中的<think>模块压缩为密集、逐步的逻辑形式,在保持最终答案字节一致的前提下,将推理通道的令牌消耗降低约62%。这使其成为训练模型在更紧凑的令牌预算内进行高效推理的理想资源。研究人员普遍将其用于监督微调(SFT)阶段,以期望模型在生成回答时能够自发地采用这种简洁的推理结构,从而在推理阶段实现显著的令牌节省,提升整体效率。
衍生相关工作
Quark数据集的发布催生了一系列围绕令牌效率与推理压缩的后续研究工作。其CCoT范式启发了研究者探索更激进的推理压缩算法,如基于强化学习的自适应令牌分配和动态推理链剪枝。此外,该数据集常被用作评估基准,用于比较不同推理压缩策略(如蒸馏、量化、结构化剪枝)在保持推理质量方面的表现。一些工作进一步扩展其领域覆盖面,开发了针对特定语言或行业的多语言CCoT变体。Quark还促进了关于‘轻量级推理’与‘深度推理’在边缘设备上部署可行性的讨论,成为该方向的重要参考数据集。
数据集最近研究
最新研究方向
Quark数据集聚焦于链式推理(Chain-of-Thought)领域的效率革命,通过引入紧凑型链式推理(CCoT)范式,显著压缩思考过程的token消耗。其核心创新在于将冗长的推理轨迹重写为高密度、分步式的逻辑序列,在保持最终答案完整性的前提下,使模型在每单位token内承载更深刻的思考链。这一方向直接回应了大语言模型推理成本高昂的瓶颈问题,当前研究热点包括将CCoT应用于多模态推理、复杂数学证明及金融决策等垂直领域,同时探索与强化学习、稀疏注意力等技术的协同优化。Quark所倡导的“以更少token实现更深推理”的理念,正在重塑推理数据集的设计范式,推动高效推理模型在资源受限场景下的实际部署,具有里程碑式的学术与工程价值。
以上内容由遇见数据集搜集并总结生成



