reasoning_gym_lmeh

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/PNYX/reasoning_gym_lmeh

下载链接

链接失效反馈

官方服务：

资源简介：

推理健身房任务数据集是一个将推理健身房实现为固定数据集的项目，用于lm-evaluation-harness生态系统。该数据集旨在通过a-vert方法进行语义提取，并包含六个不同的任务。每个任务有100个样本，其中已移除说明或提示，以避免对语言模型答案进行条件化。该数据集主要用于可扩展的监督实验，也可用于一般性的大型语言模型能力基准测试。

创建时间：

2025-10-23

原始信息汇总

Reasoning-gym数据集概述

数据集基本信息

许可证：CC-BY-4.0
语言：英语
任务类别：问答、文本生成
标签：开放域问答
规模类别：n<1K

配置信息

数据集包含以下6个配置：

gsm_symbolic
polynomial_equations
complex_arithmetic
simple_integration
intermediate_integration
dice

数据来源

代码仓库：https://github.com/open-thought/reasoning-gym
论文：https://arxiv.org/abs/2505.24760

用途说明

主要用于可扩展监督实验
也可用于通用大语言模型能力基准测试

技术实现

基于reasoning-gym实现为固定数据集
适用于lm-evaluation-harness生态系统
使用a-vert方法进行语义提取
每个任务生成100个样本
移除了所有指令和提示信息

搜集汇总

数据集介绍

构建方式

在认知推理研究领域，reasoning_gym_lmeh数据集通过系统化方法构建，将原始推理任务转化为固定格式的评估数据。该过程采用a-vert语义提取技术，从六个核心任务中分别生成100个样本，并剔除所有指令性提示以确保语言模型输出的纯净性。数据以标准化parquet格式存储，涵盖符号推理、多项式方程等数学子领域，为模型评估提供结构化基础。

特点

该数据集以多维度推理任务为特色，囊括符号数学、复杂算术及积分运算等六类核心挑战。每个任务规模控制在千样本以内，采用去语境化设计消除外部提示干扰，专注于模型内在推理能力。数据格式兼容lm-evaluation-harness评估框架，支持开放域问答与文本生成双重视角下的能力测评，其紧凑结构特别适用于精细化对比实验。

使用方法

研究者可借助lm-evaluation-harness生态系统加载该数据集，通过配置任务名称实现多维度能力评估。使用时应配合语义提取方法解析模型输出，重点关注可扩展监督实验场景下的性能表现。数据集支持文本生成与问答双模式验证，建议在标准化评估流程中保持输入输出的原始性，以准确衡量语言模型的抽象推理能力。

背景与挑战

背景概述

推理能力作为人工智能核心研究领域，近年来受到学界广泛关注。reasoning_gym_lmeh数据集由Open-Thought研究团队于2025年创建，其设计初衷在于构建标准化推理评估基准。该数据集通过整合符号推理、多项式方程、复杂算术及微积分等六类核心任务，致力于系统评估语言模型在数学推理与逻辑推演方面的能力。基于arXiv:2505.24760论文提出的理论框架，该数据集将动态推理环境转化为固定评估格式，为可扩展监督研究提供了重要实验基础，对推进语言模型推理机制的理解具有显著意义。

当前挑战

在数学推理领域，模型需应对符号运算与抽象概念理解的复合挑战，包括多项式方程求解的代数变形、复杂算术的数值精度控制以及积分运算的解析步骤推演。数据集构建过程中面临语义信息提取的技术难题，需通过a-vert方法剥离任务指令与提示信息以保持评估纯净性。同时，为确保评估样本的代表性，每个任务仅生成100个样本的规模限制要求精确的分布采样策略，这对数据质量与任务多样性提出了双重考验。

常用场景

解决学术问题

该数据集有效解决了大语言模型评估中存在的提示工程依赖性问题，通过移除所有指令和提示信息，实现了对模型内在推理能力的纯净测试。在可扩展监督研究领域，它为标准化的模型能力评估提供了重要工具，使得研究者能够准确分离语言理解与逻辑推理能力，为模型认知架构的深入分析奠定基础。这种设计显著提升了评估结果的可靠性和可比性，推动了人工智能推理研究向更严谨的科学发展。

衍生相关工作

围绕该数据集衍生的经典研究包括基于a-vert方法的语义提取技术优化，以及开源社区对多模态推理基准的扩展工作。EleutherAI团队的lm-evaluation-harness生态系统通过集成该数据集，推动了标准化评估框架的发展。同时，该数据集启发了对模型内在推理机制的可解释性研究，促进了符号推理与神经网络结合的混合架构探索，为下一代人工智能系统的认知能力建设提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集