five

swallow-math

收藏
Hugging Face2025-05-07 更新2025-05-08 收录
下载链接:
https://huggingface.co/datasets/tokyotech-llm/swallow-math
下载链接
链接失效反馈
官方服务:
资源简介:
SwallowMath是一个高质量的数学数据集,包含大约23亿个标记,通过对FineMath-4+数据集的LLM驱动重写管道处理得到。该数据集使用Llama-3.3-70B-Instruct模型去除了模板内容、恢复了缺失的上下文,并将解决方案重写为简洁的逐步解释。SwallowMath特别适用于训练大型语言模型进行数学任务,数据集以Markdown和LaTeX格式提供简洁、逐步的数学解释。
提供机构:
tokyotech-llm
创建时间:
2025-05-01
搜集汇总
数据集介绍
main_image_url
构建方式
SwallowMath数据集基于FineMath-4+这一高质量数学内容子集,通过先进的LLM驱动重写流程构建而成。研究团队采用Llama-3.3-70B-Instruct模型对原始数据进行深度处理,系统性地移除了网页残留的页眉页脚、隐私声明等冗余信息,补充了缺失的上下文内容,并将解题过程重新组织为清晰的步骤化说明。这种创新的数据处理方法显著提升了数学推理内容的完整性和教育价值,最终形成了包含约23亿标记的优化数据集。
特点
该数据集最突出的特点在于其经过精心优化的数学问题表述方式。所有解题过程均以Markdown和LaTeX格式呈现,既保留了数学表达式的精确性,又确保了内容的易读性。相较于原始数据,SwallowMath通过标准化的问题描述和系统化的解题步骤,大幅提升了数学推理任务的训练效果。实验数据表明,使用该数据集训练的模型在GSM8K和MATH等基准测试中取得了显著提升,验证了其作为数学推理任务训练数据的优越性。
使用方法
研究人员可通过HuggingFace平台直接获取SwallowMath数据集,其采用Llama 3.3社区许可证开放使用。该数据集特别适合用于大型语言模型的数学推理能力训练,建议以4.79%的比例与其他训练数据混合使用。使用时可参考论文中提供的预处理方法,重点关注模型对步骤化解题过程的学习效果。为获得最佳效果,建议配合论文中描述的持续预训练策略,训练规模宜达到500亿标记左右。
背景与挑战
背景概述
SwallowMath数据集由东京工业大学的研究团队于2025年发布,旨在提升大型语言模型(LLMs)在数学推理任务中的表现。该数据集基于FineMath-4+数据集,通过Llama-3.3-70B-Instruct驱动的重写流程,优化了原始数据中的冗余内容和缺失上下文,生成了约23亿标记的高质量数学问题与解答。SwallowMath的推出显著提升了模型在GSM8K和MATH等数学基准测试中的性能,为数学教育领域和LLMs的研究提供了重要支持。
当前挑战
SwallowMath数据集在构建过程中面临多重挑战。首先,原始数据FineMath-4+中存在大量冗余信息(如网页页眉、页脚)和不完整问题,需要通过LLM驱动的流程进行清理和上下文补充。其次,数学问题的多样性和复杂性要求重写流程在保持准确性的同时,生成简洁且易于理解的逐步解答。此外,数据集可能隐含英语内容偏好和特定问题类型的偏差,限制了其在多语言和广泛数学领域的适用性。这些挑战凸显了高质量数学数据集构建的复杂性。
常用场景
经典使用场景
在数学推理领域,SwallowMath数据集通过其精心重构的数学问题与逐步解答,成为训练大型语言模型(LLMs)数学能力的黄金标准。该数据集特别适用于模型在代数、几何等数学分支上的推理能力优化,其清晰的步骤化表达显著提升了模型对复杂数学概念的理解与生成能力。
解决学术问题
SwallowMath有效解决了数学数据集中常见的噪声干扰、上下文缺失及表述冗余等学术难题。通过Llama-3.3-70B-Instruct的重构管道,该数据集不仅净化了原始数据,更通过补充上下文和标准化解答格式,为数学推理研究提供了高质量的基准数据,使得模型在GSM8K和MATH等数学评测中的准确率分别提升12.4和7.6个百分点。
衍生相关工作
基于SwallowMath的优质特性,研究社区已衍生出多项重要工作,包括数学专用模型的持续预训练策略优化、多步骤推理能力的增强方法等。其姊妹数据集SwallowCode进一步拓展了代码生成与数学推理的交叉研究,相关成果发表在arXiv等平台,推动了数学智能领域的协同发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作