augmented-sample-math-full

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/aimo-interp/augmented-sample-math-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估模型在问题排列（permutation）下的性能变化。它包含多个字段，记录了模型ID、数据集ID、问题ID、原始问题文本、排列类型、排列来源、模型在原始问题上的准确率（base_accuracy）、在排列后问题上的准确率（permuted_accuracy）、绝对准确率衰减（absolute_accuracy_decay）、相对准确率衰减（relative_accuracy_decay）、原始预测数量、排列后预测数量、导致性能衰减的排列数量以及具体导致衰减的排列列表。数据集包含702个验证样本，适用于分析模型对问题表述变化的鲁棒性，以及识别容易导致模型性能下降的特定问题变换模式。

This dataset is used to evaluate the performance changes of models under question permutations. It includes multiple fields, recording model ID, dataset ID, question ID, original question text, permutation type, permutation source, model accuracy on the original question (base_accuracy), accuracy on the permuted question (permuted_accuracy), absolute accuracy decay, relative accuracy decay, original prediction count, permuted prediction count, number of permutations causing performance decay, and a list of specific permutations that lead to decay. The dataset contains 702 validation samples and is suitable for analyzing the robustness of models to changes in question formulation and identifying specific transformation patterns that easily cause model performance degradation.

创建时间：

2026-05-12

原始信息汇总

数据集概述

数据集名称：augmented-sample-math-full
数据集地址：https://huggingface.co/datasets/aimo-interp/augmented-sample-math-full

数据集结构

该数据集包含以下字段：

model_id：模型标识符（字符串类型）
dataset_id：数据集标识符（字符串类型）
problem_id：问题标识符（字符串类型）
original_problem：原始问题内容（字符串类型）
permutation_type：排列类型（字符串类型）
permutation_source：排列来源（字符串类型）
base_accuracy：基准准确率（浮点数）
permuted_accuracy：排列后准确率（浮点数）
absolute_accuracy_decay：绝对准确率衰减（浮点数）
relative_accuracy_decay：相对准确率衰减（浮点数）
n_base_predictions：基准预测数量（整数）
n_permuted_predictions：排列后预测数量（整数）
n_detrimental_permutations：有害排列数量（整数）
permutations_causing_decay：导致衰减的排列（字符串类型）

数据集划分

验证集：包含 702 个样本，数据大小为 341,081 字节

数据集配置

配置名称：default
数据文件：验证集数据位于 data/validation-* 路径下

数据集大小

下载大小：71,268 字节
数据集总大小：341,081 字节

搜集汇总

数据集介绍

构建方式

augmented-sample-math-full数据集专为评估数学推理模型的稳健性而构建，其核心在于通过系统化的样本扰动来探测模型对问题细节的敏感性。构建过程从原始数学问题出发，依据预定义的多种排列类型对问题文本进行结构性变换，如调整数值顺序或修改表述逻辑，从而生成对应的扰动版本。每个扰动样本与原始问题构成配对，并由多个数学推理模型分别进行预测，记录其在原始与扰动状态下的准确率，进而计算绝对与相对的准确率衰减指标。该过程通过量化模型表现变化，揭示了特定扰动策略对推理能力的干扰程度。

特点

该数据集最突出的特点在于其多层次、结构化的扰动标注体系。每条数据包含模型标识、问题来源、原始与扰动后的问题文本，以及详尽的性能变化指标，如基础准确率、扰动后准确率、准确率衰减值等。尤为值得注意的是，数据集不仅记录了整体的精度下降幅度，还明确标注了导致性能衰退的具体扰动样本数量及其标识符，使得研究者能够精确定位模型的脆弱环节。此外，数据集的规模虽以验证集形式呈现，但其聚焦于702个经过精心挑选的样本，确保每个样本都能提供富有洞察力的诊断信息。

使用方法

该数据集主要用于评估和诊断数学推理模型在面对问题文本扰动时的稳健性。研究者可通过加载验证集，直接获取各模型在原始与扰动问题上的表现差异，进而利用准确率衰减指标比较不同模型对特定扰动类型的敏感程度。典型的使用场景包括：分析模型在数值顺序变化或逻辑结构调整下的表现退化模式，并借助permutations_causing_decay字段追溯导致性能下降的关键扰动。用户亦可据此数据集设计更鲁棒的训练策略，如对抗性数据增强，以提升模型对问题表述变异的适应能力。

背景与挑战

背景概述

在自然语言处理与数学推理交叉领域，大语言模型在数学问题求解中的鲁棒性成为研究焦点。该数据集创建于近年，由研究机构针对模型对数学问题表述变化的敏感性构建，核心研究问题在于揭示模型在输入扰动下的稳定性。数据集通过系统性地扰动原始数学问题（如置换条件、变量顺序等），评估模型性能衰减，为理解模型推理机制提供基准。其影响力体现在推动模型鲁棒性评估标准化，并为优化数学推理能力提供关键训练与验证资源。

当前挑战

数据集所解决的领域挑战在于大语言模型在数学推理中对输入表述的脆弱性，尤其是无法识别等价变体导致的性能下降，这限制了模型在真实场景（如教育、自动解题）中的可靠性。构建过程中面临的核心难题包括：设计合理的置换策略以覆盖多样扰动类型，确保扰动后问题语义等价性；精准量化性能衰减（如绝对和相对精度下降）以区分模型真正脆弱点与统计波动；以及平衡样本多样性（702个实例）与扰动覆盖的全面性，避免引入偏差或过度特定于某类数学问题结构。

常用场景

经典使用场景

在人工智能与数学推理的交汇地带，augmented-sample-math-full数据集应运而生，成为评估与探究大语言模型对数学问题鲁棒性的重要基准。该数据集通过精心构造的排列扰动机制，对原始数学问题实施多种形式的变换，从而系统性地测试模型在语义变更下的推理稳定性。经典使用场景涵盖了对模型从问题理解到答案生成全链条的鲁棒性度量，研究者可借助该数据集剖析模型在遭遇数学表达式重排、条件顺序调整或逻辑嵌套变换时的表现衰减情况，进而揭示其深层推理机制的脆弱性所在。

衍生相关工作

围绕augmented-sample-math-full数据集，学术界已涌现出一系列富有启发性的衍生工作。研究者基于其排列扰动框架，进一步拓展出针对多步推理链的逐步扰动分析法，探索每一步置换对最终结果的累积影响。也有工作将该数据集与对比学习策略相结合，设计出旨在增强模型抵抗输入扰动的对抗训练范式。更值得注意的是，该数据集已作为核心评估集出现在若干探讨大型语言模型认知架构的论文中，推动了诸如‘神经符号推理增强’和‘思维链鲁棒性提升’等前沿方向的实证研究，为构建更可靠、更透明的数学推理系统提供了扎实的数据根基。

数据集最近研究