Instella-GSM8K-synthetic
收藏Hugging Face2025-03-06 更新2025-03-07 收录
下载链接:
https://huggingface.co/datasets/amd/Instella-GSM8K-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
Instella-GSM8K-synthetic数据集是基于GSM8k数据集的训练集生成的合成数据集,用于Instella-3B模型的第二阶段预训练。该数据集通过使用Qwen2.5-72B-Instruct模型将数值抽象为函数参数并生成解决数学问题的Python程序,然后替换原有问题中的数值以生成新的可解答的问题,进而通过为这些Python参数分配不同的新值并使用抽象的解决方案程序计算相应的答案来扩展数据集。数据集包含两个分割:'train'和'train_119K',后者是前者的一个子集,用于Instella-3B模型的第二阶段预训练。
提供机构:
AMD
创建时间:
2025-03-06
搜集汇总
数据集介绍

构建方式
Instella-GSM8K-synthetic数据集的构建,是基于GSM8k数据集的训练集,运用Qwen2.5-72B-Instruct模型,抽象数值为函数参数并生成解决数学问题的Python程序。随后,通过为这些Python参数赋予不同新值,并使用抽象的解决方案程序计算相应的答案,从而扩充了合成数据集中的问题和答案对。数据集由两个部分组成:'train'和'train_119K',后者是前者的子集,用于Instella-3B模型的第二阶段预训练。
特点
该数据集的特点在于,它是一个合成的数学问题解答数据集,通过自动化程序生成问题及其解答,具有高效性和一致性。此外,数据集采用对话格式,以用户和助手之间的消息形式呈现问题和解决方案,便于模型理解和生成类似对话。
使用方法
使用该数据集时,用户可以从HuggingFace的仓库中下载'train'和'train_119K'两个split的数据文件。数据以JSON格式存储,每个样本包括一个ID和消息列表,消息列表包含问题和解决方案,分别以用户和助手的角色标识。该数据集适用于语言模型的预训练,尤其是对于数学问题解答和文本生成任务。
背景与挑战
背景概述
Instella-GSM8K-synthetic数据集是在Instella-3B模型的第二阶段预训练中使用的合成数据集。该数据集的构建基于GSM8k数据集的训练集,通过Qwen2.5-72B-Instruct模型对数值进行抽象作为函数参数并生成解决数学问题的Python程序,以及识别并替换问题中的数值以生成新的可解答问题,从而扩充数据集。该数据集的创建标志着对数学问答领域模型的深入研究和探索,对相关领域产生了显著影响。
当前挑战
在构建Instella-GSM8K-synthetic数据集的过程中,研究人员面临的挑战主要包括如何确保合成数据的质量和可靠性,以及如何有效地生成与原始问题具有相同解决方案的新问题。此外,数据集在解决数学问答领域问题的挑战在于,需要模型能够理解和生成复杂的数学问题和相应的解答,这对于模型的泛化能力和逻辑推理能力提出了较高的要求。
常用场景
经典使用场景
Instella-GSM8K-synthetic数据集在语言模型预训练的第二阶段中被广泛采用,其主要用途是辅助生成数学问题及其解答的Python程序,进而通过参数抽象和替换,扩展出新的问题-答案对,以增强模型的数学问题解决能力。
实际应用
在实际应用中,Instella-GSM8K-synthetic数据集可用于开发智能助手,特别是在数学教育领域,可以辅助学生解决数学题目,为在线教育平台提供支持。
衍生相关工作
基于此数据集,研究者可以进一步探索数学问题自动生成和解答的新算法,以及开发更加智能的语言模型。Instella-3B模型即是其衍生的经典工作之一,它在数学问题解答方面表现出色。
以上内容由遇见数据集搜集并总结生成



