five

SmallThoughts

收藏
Hugging Face2025-03-12 更新2025-03-13 收录
下载链接:
https://huggingface.co/datasets/SmallDoge/SmallThoughts
下载链接
链接失效反馈
官方服务:
资源简介:
SmallThoughts是一个覆盖数学、科学、代码和谜题的合成推理数据集。为了解决现有的DeepSeek R1蒸馏数据过长的问题,该数据集限制了推理轨迹,使其更加精确和简洁,同时保留了反思性质。我们还开源了蒸馏数据的管道代码,只需一个命令即可生成自己的数据集。
创建时间:
2025-03-08
搜集汇总
数据集介绍
main_image_url
构建方式
SmallThoughts数据集的构建,针对现有DeepSeek R1蒸馏数据过长的问题,采用了限制推理轨迹的长度,确保其精确而简洁,同时保留了反映性的特征。该数据集涵盖了数学、科学、代码和谜题等领域,通过合成推理数据集的形成,旨在为相关任务提供高质量的训练和测试数据。
特点
该数据集的特点在于其合成推理的性质,以及其精确和简洁的推理轨迹。它包含了25000个训练示例和1000个测试示例,数据集大小超过96MB,采用Apache-2.0许可开源。此外,数据集支持的任务类别包括问题回答和文本生成,适用于英语语言处理。其标签涉及生物学、代码、化学和合成数据等方面,规模分类在10K到100K之间。
使用方法
使用SmallThoughts数据集,用户可以通过简单的Python代码进行数据加载。对于使用TRL库进行模型训练的用户,可以直接利用数据集中的`problem`和`solution`字段进行GRPO强化学习,`messages`字段进行SFT微调,无需额外预处理。同时,数据集的示例可以根据语义相似性进行聚类,并在Nomic Atlas平台上进行可视化探索。
背景与挑战
背景概述
SmallThoughts数据集,作为一个开放的人工合成推理数据集,涵盖了数学、科学、编程以及谜题等领域。该数据集由SmallDoge团队于2025年3月创建,旨在解决现有DeepSeek R1蒸馏数据过长的问题,通过限制推理轨迹的长度,以实现更为精确且简洁的反映性质。该数据集的构建,对于推动合成推理领域的研究,提供了重要的资源与工具,影响深远。
当前挑战
SmallThoughts数据集在构建过程中,面临了如何将推理轨迹精确化的挑战,同时保留了数据的反射性。此外,该数据集的应用也面临着如何有效利用其提供的problem、solution以及messages等信息进行模型训练与细化的挑战。在数据集的使用过程中,还需要克服如何处理合成推理任务中的多样性与复杂性的问题。
常用场景
经典使用场景
SmallThoughts数据集作为开放合成推理数据集,其经典的使用场景在于为机器学习模型提供精确且简洁的推理轨迹训练素材,尤其是针对数学、科学、编程以及谜题等领域。该数据集通过其结构化的problem和solution字段,以及messages字段中的角色和内容信息,为模型训练提供了丰富的上下文和推理步骤。
解决学术问题
该数据集解决了现有DeepSeek R1蒸馏数据过长,导致模型训练效率低下的问题。通过限制推理轨迹的长度,SmallThoughts数据集在保持数据反射性的同时,提高了模型训练的精确性和效率,对于学术研究中推理模型的优化和推理能力提升具有重要意义。
衍生相关工作
基于SmallThoughts数据集,研究者可以进一步开展相关工作,如推理模型的创新设计、模型在特定领域的应用研究等。此外,该数据集的开源性质也促进了相关工具和模型的开发,如数据集的生成管道代码已经开源,便于研究者快速构建自定义的数据集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作