LiteCoT
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/Evanwu1125/LiteCoT
下载链接
链接失效反馈官方服务:
资源简介:
LiteCoT数据集由香港科技大学(广州)的研究团队创建,包含10万个简洁的推理示例。每个解决方案平均只有720个token,相较于现有的推理数据集,减少了推理链的长度。LiteCoT数据集是通过DAP(Difficulty-Aware Prompting)流程构建的,该流程首先由大型教师模型生成初始的推理链,然后根据问题难度动态缩短推理链。LiteCoT数据集主要应用于推理模型蒸馏,旨在解决推理链冗长和缺乏对问题难度的适应性等问题。
The LiteCoT dataset is developed by the research team at The Hong Kong University of Science and Technology (Guangzhou), comprising 100,000 concise reasoning examples. Each solution has an average length of 720 tokens, resulting in significantly shorter reasoning chains compared to existing reasoning datasets. The LiteCoT dataset is constructed via the DAP (Difficulty-Aware Prompting) pipeline, which first generates initial reasoning chains using a large teacher model, then dynamically trims these chains based on the difficulty level of the input problems. The LiteCoT dataset is primarily utilized for reasoning model distillation, aiming to address issues such as overly lengthy reasoning chains and the lack of adaptability to problem difficulty.
提供机构:
香港科技大学(广州)
创建时间:
2025-05-26
原始信息汇总
LiteCoT数据集概述
数据集基本信息
- 项目名称: LiteCoT
- 许可证: Apache 2.0
- 开源状态: 已完全开源训练数据和训练脚本
- 最新更新: 2025/05/20 发布训练数据集和对应Liter模型
数据集内容
- 数据生成方法: 使用DAP(难度感知提示)管道生成
- 第一步: DeepSeek R1模型从收集的用户查询生成初始长链推理(Long CoT)数据
- 第二步: 通过难度感知提示指导模型重写简洁的CoT输出,根据问题难度动态调整推理长度
数据集获取
- 下载地址: SmallDoge/SmallThoughts
- 备用下载方式: bash pip install -U huggingface_hub export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --repo-type dataset --resume-download SmallDoge/SmallThoughts --local-dir /path/to/your/dir
数据预处理
- 预处理脚本:
training_data/convert_parquet.py
相关模型
| 模型名称 | 基础模型 |
|---|---|
| LiteCoT-1.5B | Qwen2.5-Math-1.5B-Base |
| LiteCoT-7B | Qwen2.5-Math-7B-Base |
| LiteCoT-14B | Qwen2.5-14B-Base |
| LiteCoT-32B | Qwen2.5-32B-Base |
搜集汇总
数据集介绍

构建方式
LiteCoT数据集的构建采用了难度感知提示(DAP)方法,通过两阶段流程实现:首先由教师模型生成初始长推理链,随后基于问题难度评估对推理链进行动态压缩。具体而言,教师模型首先对问题难度进行分类(简单、中等、困难),然后根据预设的难度分级模板重构推理过程,最终形成平均长度仅720个token的简洁推理样本。该流程将原始推理链长度压缩了一个数量级,同时保持推理完整性。
特点
LiteCoT的核心特征体现在其难度自适应的推理结构和极致的简洁性。数据集包含10万条样本,每条样本的推理过程均根据问题复杂度动态调整长度:简单问题采用3步推理框架,中等问题采用5步分析框架,复杂问题则采用多子问题分解结构。相比传统CoT数据集5K-10K的token长度,本数据集平均长度降低至720token,在AIME24等基准测试中仅需5K推理token即可达到74.2%的准确率,实现训练和推理效率的数量级提升。
使用方法
使用LiteCoT进行模型蒸馏时,建议采用Qwen2.5架构作为基础模型,以5e-5学习率配合余弦调度器进行3个epoch的微调。数据集已预置难度标签,可直接用于分级训练策略:简单样本侧重快速收敛,复杂样本注重深度推理能力培养。实验表明,基于该数据集蒸馏的1.5B小模型在11个基准测试中超越传统800K长链数据训练的模型,特别适合资源受限场景下的高效推理部署。用户可通过调整rope频率至100K来扩展上下文窗口至8K token,以更好处理复杂问题的多步推理。
背景与挑战
背景概述
LiteCoT数据集由香港科技大学(广州)等机构的研究团队于2025年提出,旨在解决现有思维链(CoT)蒸馏方法中推理轨迹冗长和问题难度适应性不足两大核心问题。该数据集通过难度感知提示(DAP)方法,将原始长推理轨迹动态压缩至平均720个令牌的简洁形式,同时保持推理完整性。基于Qwen2.5架构的Liter模型系列(1.5B/7B/32B)通过该数据集训练后,在11项推理基准测试中展现出超越传统长推理链模型的性能,显著降低了训练和推理成本。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,需平衡推理链的简洁性与完整性,避免过度压缩导致关键推理步骤丢失;构建过程层面,需精确评估问题难度并生成适配长度的推理轨迹,这对教师模型的难度分级能力和文本重构能力提出极高要求。此外,数据集中100K样本的难度分布均衡性、不同领域问题(如数学推理与常识问答)的泛化性,以及压缩后推理链在复杂问题上的可靠性验证,均为关键挑战点。
常用场景
经典使用场景
在自然语言处理领域,LiteCoT数据集通过其简洁且难度自适应的推理链特性,为模型蒸馏提供了高效训练样本。该数据集最典型的应用场景是作为轻量级推理模型(如Liter系列)的微调数据,通过将原始冗长的思维链(CoT)压缩至平均720个token的简洁版本,显著降低了模型训练和推理时的计算开销。在数学推理、逻辑推导等复杂任务中,基于LiteCoT训练的模型能动态调整推理深度,避免对简单问题的过度计算。
实际应用
在实际应用中,LiteCoT显著提升了资源受限场景下的模型部署效率。其衍生的Liter模型家族(1.5B-32B参数)已成功应用于在线教育解题系统、自动化数学测评等场景,推理速度较传统CoT模型提升3-5倍。在边缘设备部署时,基于该数据集训练的模型展现出优异的计算效率,例如在GSM8K数学题解答任务中,仅需常规模型20%的推理时间即可保持同等准确率。
衍生相关工作
LiteCoT的提出催生了多个相关研究方向。在方法层面,DAP技术启发了Chain-of-Draft、LLMLingua-2等推理压缩工作;在模型架构方面,基于该数据集训练的Liter模型成为轻量级推理模型的基准之一。后续研究如ReasonFlux的层次化推理模板、AdaR1的混合推理优化等方法,均受其难度自适应思想的直接影响。这些工作共同推动了高效推理领域从静态长链向动态可调推理范式的转变。
以上内容由遇见数据集搜集并总结生成



