GSM-Infinite

github2025-02-26 更新2025-02-13 收录

下载链接：

https://github.com/Infini-AI-Lab/gsm_infinite

下载链接

链接失效反馈

官方服务：

资源简介：

GSM-Infinite是一个完全合成的推理基准，不包含LLM，能够生成上下文长度和推理复杂度无限可扩展的问题。

GSM-Infinite is a fully synthetic reasoning benchmark that contains no LLMs and is capable of generating questions with infinitely scalable context lengths and reasoning complexities.

创建时间：

2025-02-04

原始信息汇总

GSM-Infinite 数据集概述

数据集名称

GSM-Infinite

数据集简介

GSM-Infinite 是一个完全合成的推理基准，能够生成无限可扩展的上下文长度和推理复杂度的问题。该数据集受 Physics of Language Model 2.1 启发，使用抽象的小学级别数学问题，通过计算图和图语言映射生成适合 LLM 读取（也适合人类读取）的问题。

数据集特点

完全合成，无需 LLM 参与生成过程。
支持上下文长度和推理复杂度的无限扩展。
生成的上下文长度具有高信息密度。

数据集组成

数据集包含 Symbolic、Medium 和 Hard 三个子任务，主要关于语义层次的不同。

使用说明

提供了数据生成和模型评估脚本，分为 Symbolic 和 Realistic 两个目录。
用户可以通过 run.sh 脚本对 Symbolic 数据集进行采样和评估。
用户可以通过 run.sh 脚本对 Realistic 数据集（Medium 和 Hard 子集）进行采样和自动评估。

环境安装

使用 pip install -r requirements.txt 安装所需环境。

性能评估

数据集提供了在 Zero Noise 和 Long-context 条件下的模型性能排行榜。

论文与引用

论文标题：GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity?
作者：Yang Zhou, Hongyi Liu, Zhuoming Chen, Yuandong Tian, Beidi Chen
年份：2025
arXiv 链接：https://arxiv.org/abs/2502.05252

@misc{zhou2025gsminfinitellmsbehaveinfinitely, title={GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity?}, author={Yang Zhou and Hongyi Liu and Zhuoming Chen and Yuandong Tian and Beidi Chen}, year={2025}, eprint={2502.05252}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.05252}, }

搜集汇总

数据集介绍

构建方式

GSM-Infinite是一个完全合成的推理基准，不涉及LLM参与，能够生成在上下文长度和推理复杂性上无限可扩展的问题。该数据集受到Physics of Language Model 2.1的启发，采用抽象的小学级别数学问题，通过计算图和图语言映射生成LLM可读（同时也是人类可读）的问题。

特点

GSM-Infinite的特点在于其完全合成性，能够在上下文长度和推理复杂性上实现无限扩展。它生成的上下文长度具有高信息密度，且包含的问题在语义层次上具有明确的分类，包括Symbolic、Medium和Hard三个子任务。

使用方法

使用GSM-Infinite数据集时，用户需要根据具体任务需求编辑`config.sh`文件，配置模型细节、API密钥、采样和评估设置等。通过运行`run.sh`脚本，用户可以采样新预测并评估现有预测。数据集的生成和评估脚本已分离，用户可以根据需要生成自己的数据集或评估模型表现。

背景与挑战

背景概述

GSM-Infinite数据集，旨在解决现有长文本上下文评估指标中存在的不足，如推理复杂度、上下文长度以及可扩展性的缺乏。该数据集由Carnegie Mellon University和Meta AI的研究人员共同创建，其灵感来源于《Physics of Language Model 2.1》的研究成果。GSM-Infinite能够生成无限可扩展的上下文长度和推理复杂度的问题，使用抽象的小学水平数学问题，通过计算图和图语言映射，生成适合大型语言模型阅读的问题。该数据集的核心研究问题是开发一个包含足量问题，能够适应从简单检索任务到无限难度的挑战，并提供无限可定制上下文长度的评估指标。

当前挑战

GSM-Infinite数据集面临的挑战包括：如何确保数据集在推理复杂度和上下文长度方面具有足够的可扩展性，同时保持高质量的信息密度。此外，该数据集需要解决的问题还包括如何区分生成的噪声与关键信息块，以及如何确保任务仅能由长文本上下文的语言模型解决，而非其他方法如检索器。在构建过程中，研究人员还必须克服合成数据时保持高信息密度和合理推理难度的挑战。

常用场景

经典使用场景

GSM-Infinite数据集的设计理念旨在解决长文本上下文处理中存在的推理复杂度和信息密度不足的问题，其经典使用场景主要集中在评估大型语言模型在处理无限增长上下文长度和推理复杂性时的表现。该数据集通过合成具有高度信息密度的上下文，生成从简单到极具挑战性的数学问题，为研究者在模型评估与优化方面提供了重要工具。

实际应用

在实际应用中，GSM-Infinite数据集可用于指导语言模型的开发，优化模型在处理复杂文本和长上下文时的性能。此外，该数据集也为教育领域提供了新的可能性，通过模拟不同难度级别的数学问题，有助于提升学生的逻辑推理能力。

衍生相关工作

基于GSM-Infinite数据集的研究成果，已经衍生出一系列相关工作，包括但不限于对现有模型的性能评估、新型推理任务的设定，以及针对不同领域定制化语言模型的开发。这些工作进一步拓展了GSM-Infinite数据集的应用范围，促进了长文本处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集