iGSM

github2025-01-13 更新2025-01-14 收录

下载链接：

https://github.com/facebookresearch/iGSM

下载链接

链接失效反馈

官方服务：

资源简介：

iGSM是一个用于生成和评估小学数学问题的合成数据集，旨在生成不同难度级别的问题，并评估给定解决方案的正确性。该数据集还生成了`networkx.DiGraph`对象以供未来使用。

iGSM is a synthetic dataset for generating and evaluating elementary mathematics problems. It is designed to generate problems of varying difficulty levels and assess the correctness of given solutions. Additionally, this dataset generates `networkx.DiGraph` objects for future use.

创建时间：

2025-01-12

原始信息汇总

数据集概述

数据集名称

iGSM

数据集简介

iGSM 是一个用于生成和评估小学级别数学问题的合成数据生成器/评估器。该数据集设计用于生成特定类别的小学数学问题，并评估给定解决方案的正确性。数据集还提供了不同难度级别的选择，并生成 networkx.DiGraph 对象以供未来使用。

数据集用途

生成小学数学问题。
评估给定解决方案的正确性。
提供不同难度级别的问题生成。
生成结构图和依赖图，用于问题描述和解决方案的生成。

数据集特点

难度级别：支持中等（med）和困难（hard）两种难度级别。
问题生成：通过 get_prob_sol_ans_triple 函数生成问题、解决方案和答案的三元组。
解决方案验证：使用 true_correct 函数验证解决方案的正确性。
重试数据生成：支持生成重试数据和弱重试数据。

数据集结构

问题生成：通过 IdGen 类生成问题、解决方案和答案的 token 序列。
结构图：问题生成过程中会生成结构图，存储在 id_gen.problem.G 中，用于表示问题中各节点的连接关系。
依赖图：依赖图存储在 id_gen.problem.template 中，使用 networkx.DiGraph 类表示。

数据集生成示例

python from data_gen.pretrain.id_gen import IdGen from tools.tools import fix_seed

fix_seed(42) # 确保可重复性

初始化 IdGen 实例

id_gen = IdGen( max_op=15, # 最大操作数 max_edge=20, # 结构图中的最大边数 perm_level=5, # 问题描述的随机化级别 detail_level=0 # 解决方案的详细级别 )

生成问题并格式化

id_gen.gen_prob([i for i in range(23)], p_format="pq")

数据集验证示例

python from tools.tools_test import true_correct

示例解决方案字符串

wrong_sol = " Define Penguin Beachs Giraffe as t; so t = 6. Define Octopus Dens Leopard as r; so r = t = 6. Define Penguin Beachs Animal as J; so J = t = 6."

验证解决方案

correct, my_print, parser = true_correct(wrong_sol, id_gen.problem) print(f"Correct or not: {correct}") my_print.display()

数据集引用

如果使用 iGSM 数据集，请引用以下论文： bibtex @article{YXLA2024-gsm1, author = {Ye, Tian and Xu, Zicheng and Li, Yuanzhi and {Allen-Zhu}, Zeyuan}, title = {{Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process}}, journal = {ArXiv e-prints}, year = 2024, month = jul, volume = {abs/2407.20311}, note = {Full version available at url{http://arxiv.org/abs/2407.20311}} }

如果使用重试数据或 box-over-box 数据，请同时引用以下论文： bibtex @article{YXLA2024-gsm2, author = {Ye, Tian and Xu, Zicheng and Li, Yuanzhi and {Allen-Zhu}, Zeyuan}, title = {{Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems}}, journal = {ArXiv e-prints}, year = 2024, month = aug, volume = {abs/2408.16293}, note = {Full version available at url{http://arxiv.org/abs/2408.16293}} }

许可证

MIT 许可证。

搜集汇总

数据集介绍

构建方式

iGSM数据集的构建基于一个专门设计的数学问题生成与评估框架，旨在模拟小学阶段的数学问题。通过`IdGen`类，数据集能够生成包含问题、解答和答案的三元组。生成过程中，系统根据用户指定的难度级别（如中等或困难）调整问题的复杂度，包括操作数量和结构图中的边数。此外，系统还支持随机化问题描述的排列顺序，并生成详细的解答格式。

特点

iGSM数据集的特点在于其高度结构化的数学问题生成机制，能够生成具有不同难度级别的问题，并支持对解答的全面评估。数据集不仅提供了问题的数值答案，还生成了详细的解答步骤，便于模型学习和评估。此外，数据集还生成了`networkx.DiGraph`对象，用于表示问题的结构图和依赖图，为未来的扩展和应用提供了灵活性。

使用方法

使用iGSM数据集时，用户可以通过调用`get_prob_sol_ans_triple`函数生成指定难度的数学问题。生成的`IdGen`实例包含问题的token序列、解答的token序列以及答案的token序列，用户可以通过GPT2的标准tokenizer进行解码。此外，数据集提供了`true_correct`函数，用于验证解答的正确性，确保解答不仅数值正确，还符合问题的逻辑要求。用户还可以通过`IdRetryGen`和`IdRetryWeakGen`类生成带有重试机制的问题，进一步扩展数据集的应用场景。

背景与挑战

背景概述

iGSM数据集是由Tian Ye、Zicheng Xu、Yuanzhi Li和Zeyuan Allen-Zhu等研究人员于2024年创建的一个专注于小学数学习题生成与评估的合成数据集。该数据集的核心研究问题在于探索语言模型在解决小学数学问题时的推理过程，尤其是模型在错误中学习的能力。iGSM通过生成具有不同难度级别的数学问题，并提供详细的解题步骤和答案，旨在帮助研究人员深入理解语言模型在处理复杂逻辑推理任务时的表现。该数据集的研究成果已在arXiv上发表，相关论文包括《Physics of Language Models: Part 2.1》和《Part 2.2》，对自然语言处理领域中的推理与学习机制研究具有重要影响。

当前挑战

iGSM数据集在解决小学数学问题的推理任务中面临多重挑战。首先，生成具有逻辑一致性和多样性的数学问题本身具有较高的复杂性，尤其是在确保问题描述与解题步骤之间的严格对应关系时。其次，评估模型生成的解题步骤的准确性不仅需要验证最终答案的正确性，还需确保每一步推理过程的逻辑严密性，这对评估算法的设计提出了较高要求。此外，构建过程中还需处理问题描述的随机化与结构化之间的平衡，以确保生成的题目既具有挑战性，又符合小学数学的教学标准。这些挑战使得iGSM在推动语言模型推理能力研究方面具有重要的实验价值。

常用场景

经典使用场景

iGSM数据集在语言模型的研究中扮演了重要角色，特别是在探索语言模型解决小学数学问题的能力方面。该数据集通过生成具有不同难度级别的小学数学问题，帮助研究人员深入分析模型在复杂推理任务中的表现。其经典使用场景包括生成问题-解决方案-答案三元组，并通过结构图和依赖图的形式展示问题的逻辑结构，从而为模型训练和评估提供了丰富的实验数据。

衍生相关工作

iGSM数据集的推出催生了一系列相关研究，特别是在语言模型的数学推理能力方面。基于该数据集的研究工作包括对模型错误的分析与改进、复杂推理任务的自动化生成与评估，以及模型在数学问题解答中的表现优化。这些研究不仅扩展了语言模型的应用范围，还为未来的智能教育系统提供了理论基础和技术支持。

数据集最近研究