five

SYNTH-Swallow-Math-Code-Mix

收藏
Hugging Face2026-02-01 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/TMoC/SYNTH-Swallow-Math-Code-Mix
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个高质量的全合成数据集,由四个来源的数据完全混洗而成:SYNTH(约63.5%)、SwallowCode-v2(约15.5%)、SwallowMath-v2-textbook(约10.5%)和SwallowMath-v2-qa(约10.0%)。创建此数据集的动机是为了提供一个方便、预混洗的高质量合成/增强数据集集合,用于2026年1月前的小型语言模型预训练实验。SYNTH数据集在训练中占主导地位,但辅以tokyotech提供的优秀数学和代码数据集,这些数据集经过重写,具有一致且可预测的格式。通过这种组合,模型可以获得SYNTH设计上缺乏的通用知识(SYNTH)、基础数学理解(Swallow Math V2)和Python代码技能(Swallow Code V2)。数据集采用单列格式(`text`),以保持训练的简洁性。所有荣誉归功于原始作者PleIAs和tokyotech。
创建时间:
2026-02-01
原始信息汇总

数据集概述

数据集名称

Mixed dataset: SYNTH + SwallowMath-v2 + SwallowCode-v2

数据集来源与构成

本数据集是一个高质量、全合成的混合数据集,由以下四个来源的数据完全随机打乱混合而成:

  • SYNTH:占比约 63.5%
  • SwallowCode-v2:占比约 15.5%
  • SwallowMath-v2-textbook:占比约 10.5%
  • SwallowMath-v2-qa:占比约 10.0%

原始数据来源详情

  • PleIAs/SYNTH:格式为 text = query + synthetic_reasoning + synthetic_answer
  • tokyotech-llm/swallow-math-v2:包含子集 swallow-math-v2-qaswallow-math-v2-textbook
  • tokyotech-llm/swallow-code-v2:包含子集 stage5-auto-format

数据集特征

  • 数据列:仅包含单列 text,以保持训练过程极其简单。
  • 语言:英语
  • 任务类别:文本生成
  • 许可协议:其他

创建动机

提供此数据集的目的是为了满足截至2026年1月,在小语言模型预训练实验中,需要一个方便、预先打乱混合的、最高质量的合成/增强数据集的合并版本。SYNTH 数据将在此训练中占主导地位,并辅以 tokyotech 提供的优秀的数学和代码数据集。这些数据集由格式一致且可预测的改写合成样本组成,是对 SYNTH 的很好补充。通过这种组合,模型应能获得通用知识(来自 SYNTH)、基础数学理解(来自 Swallow Math V2)以及 Python 代码技能(来自 Swallow Code V2),而这些是当前形式的 SYNTH 在设计上所缺乏的。

致谢

所有荣誉归于原始作者:PleIAs 和 tokyotech。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能领域,高质量的训练数据对于模型性能至关重要。SYNTH-Swallow-Math-Code-Mix数据集的构建采用了合成与增强数据的混合策略,通过整合四个核心来源实现:SYNTH占据主导地位,约占总量的63.5%,而SwallowCode-v2、SwallowMath-v2-textbook和SwallowMath-v2-qa分别贡献约15.5%、10.5%和10.0%。这些数据经过完全随机打乱处理,形成一个统一的文本列,旨在为小型语言模型的预训练实验提供便捷且信号密集的资源。构建过程中,原始数据集如PleIAs/SYNTH和tokyotech-llm的数学与代码数据集被精心融合,确保了格式的一致性与可预测性,从而在2026年初的技术背景下,为模型学习提供全面的知识覆盖。
特点
该数据集的特点体现在其合成数据的多样性与高质量信号上。作为全合成数据集,它融合了通用知识、数学理解和编程技能三大领域,其中SYNTH部分侧重于通用推理与答案生成,而Swallow Math V2和Swallow Code V2则分别强化了数学基础与Python代码能力。这种组合弥补了单一数据源的设计局限,使得模型能够在预训练阶段同时吸收跨领域的结构化信息。数据格式简洁统一,仅包含单一的文本列,便于训练流程的高效实施,同时所有样本均经过改写处理,确保了内容的一致性和可扩展性,为实验提供了可靠的基础。
使用方法
在模型开发与应用中,SYNTH-Swallow-Math-Code-Mix数据集的使用方法侧重于简化预训练流程。用户可以直接加载该数据集,利用其单一的文本列进行语言模型的训练,无需复杂的数据预处理步骤。数据集已预先打乱,确保了样本分布的随机性,有助于模型避免过拟合并提升泛化能力。它特别适用于小型语言模型的实验场景,旨在通过合成数据的丰富信号,促进模型在通用知识、数学推理和代码生成方面的综合表现。使用时,建议结合原始作者PleIAs和tokyotech的贡献说明,以遵循数据许可要求,并确保在文本生成任务中实现最佳效果。
背景与挑战
背景概述
在人工智能领域,高质量训练数据是推动语言模型发展的核心要素。SYNTH-Swallow-Math-Code-Mix数据集于2026年初由PleIAs与tokyotech-llm等研究团队联合构建,旨在为小型语言模型的预训练提供高效、均衡的合成数据资源。该数据集巧妙融合了通用知识、数学推理与编程技能三大模块,通过精心设计的混合比例,解决了传统单一数据源在跨领域能力培养上的局限性,为轻量级模型的综合性能优化奠定了重要基础。
当前挑战
该数据集致力于提升语言模型在通用知识、数学推理及代码生成等多任务场景下的协同学习能力,其核心挑战在于如何平衡不同数据源间的领域分布与知识密度,避免模型在训练过程中出现认知偏差或技能失衡。在构建过程中,研究人员需克服合成数据的真实性验证、格式一致性对齐以及跨领域语义连贯性维护等难题,确保混合后的数据既能保留各子集的优势特性,又能形成有机统一的训练样本流。
常用场景
经典使用场景
在小型语言模型预训练领域,SYNTH-Swallow-Math-Code-Mix数据集被设计为一个高质量、全合成的混合数据源,专门用于提升模型在通用知识、数学推理与编程技能方面的综合能力。其经典使用场景集中于模型预训练阶段,通过整合SYNTH的通用知识、SwallowMath-v2的数学理解以及SwallowCode-v2的Python代码技能,为研究者提供了一个便捷且经过预混洗的数据集,以支持高效且均衡的多领域语言模型训练实验。
解决学术问题
该数据集有效解决了小型语言模型在预训练过程中面临的数据质量不均与领域覆盖不足的学术挑战。通过融合高质量合成数据,它弥补了单一数据集在数学推理和代码生成方面的设计缺陷,为模型提供了结构一致、格式可预测的多模态训练样本。这不仅促进了模型在跨领域知识融合方面的研究,还为评估模型在复杂任务上的泛化能力提供了标准化基准,推动了语言模型预训练方法的优化与创新。
衍生相关工作
该数据集衍生了多项经典研究工作,主要集中在小型语言模型的多任务学习与领域适应领域。基于其混合结构,研究者开发了新型预训练方法,如分层注意力机制和课程学习策略,以更好地平衡通用知识与专业技能。同时,它激发了针对合成数据质量评估、模型鲁棒性测试以及跨领域迁移学习的研究,为后续数据集如增强版数学与代码混合集的构建提供了理论基础与实践参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作