five

Synthetic Math Problem-Solution Pairs

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/RUCAIBox/JiuZhang3.0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了46亿个由GPT-4生成的数学问题-解答对,旨在提升较小规模的大型语言模型(LLM)的数学推理能力。通过提炼GPT-4的数据合成能力,生成了这个数据集,用于对九章3.0模型进行预训练,提供了高质量的训练数据,从而在各类数学推理任务中提升了模型的性能。该数据集的规模达到了46亿对,任务专注于数学推理训练。

This dataset comprises 4.6 billion math problem-solution pairs generated by GPT-4, designed to improve the mathematical reasoning abilities of smaller-scale large language models (LLMs). It was constructed by leveraging the data synthesis capabilities of GPT-4, and is employed for pre-training the Jiuzhang 3.0 model, providing high-quality training data to enhance the model's performance across a wide range of mathematical reasoning tasks. With a total of 4.6 billion pairs, this dataset focuses exclusively on mathematical reasoning training.
提供机构:
RUCAIBox
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作