aimo-interp-challenge-sample-full

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/aimo-interp/aimo-interp-challenge-sample-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估模型在问题（或任务）排列下的性能变化，旨在分析排列操作对模型准确率的影响。数据包含多个特征字段，如模型ID（model_id）、数据集ID（dataset_id）、问题ID（problem_id）、原始问题（original_problem）、排列类型（permutation_type）、排列来源（permutation_source）、基准准确率（base_accuracy）、排列后准确率（permuted_accuracy）、绝对准确率衰减（absolute_accuracy_decay）、相对准确率衰减（relative_accuracy_decay）、基准预测数量（n_base_predictions）、排列预测数量（n_permuted_predictions）、导致衰减的排列数量（n_detrimental_permutations）以及导致衰减的排列列表（permutations_causing_decay）。数据集规模包括验证集，共558个示例，适用于模型鲁棒性测试、泛化能力分析或对抗性评估等任务，帮助研究者量化排列扰动对模型预测的负面影响。

This dataset is used to evaluate the performance changes of models under problem (or task) permutations, aiming to analyze the impact of permutation operations on model accuracy. The data includes multiple feature fields, such as model ID (model_id), dataset ID (dataset_id), problem ID (problem_id), original problem (original_problem), permutation type (permutation_type), permutation source (permutation_source), base accuracy (base_accuracy), permuted accuracy (permuted_accuracy), absolute accuracy decay (absolute_accuracy_decay), relative accuracy decay (relative_accuracy_decay), number of base predictions (n_base_predictions), number of permuted predictions (n_permuted_predictions), number of permutations causing decay (n_detrimental_permutations), and list of permutations causing decay (permutations_causing_decay). The dataset scale includes a validation set with a total of 558 examples, suitable for tasks such as model robustness testing, generalization capability analysis, or adversarial evaluation, helping researchers quantify the negative impact of permutation perturbations on model predictions.

创建时间：

2026-05-12

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是对该数据集的总结：

数据集概述

数据集名称：aimo-interp-challenge-sample-full
数据集地址：https://huggingface.co/datasets/aimo-interp/aimo-interp-challenge-sample-full

数据集特征

该数据集包含以下14个特征：

特征名	数据类型	描述
model_id	large_string	模型标识符
dataset_id	large_string	数据集标识符
problem_id	large_string	问题标识符
original_problem	large_string	原始问题内容
permutation_type	large_string	排列类型
permutation_source	large_string	排列来源
base_accuracy	float64	基础准确率
permuted_accuracy	float64	排列后的准确率
absolute_accuracy_decay	float64	绝对准确率衰减
relative_accuracy_decay	float64	相对准确率衰减
n_base_predictions	int64	基础预测数量
n_permuted_predictions	int64	排列预测数量
n_detrimental_permutations	int64	有害排列数量
permutations_causing_decay	large_string	导致衰减的排列信息

数据集划分与规模

划分：仅包含一个验证集（validation split）
验证集样本数：558条
验证集文件大小：722,559字节（约706KB）
数据集总下载大小：94,757字节（约92.6KB）

配置文件

配置名称：default（默认配置）
数据文件路径：data/validation-*（验证集数据文件）

搜集汇总

数据集介绍

构建方式

该数据集源自AIMO交互式可解释性挑战赛，旨在量化机器学习模型在数学推理任务中的鲁棒性与可解释性。构建过程中，首先从多个预训练语言模型中选取基础模型，并收集其在标准数学问题上的预测结果。随后，针对每个数学问题，系统性地对输入或中间变量进行多种类型的排列变换，以模拟模型在扰动条件下的行为变化。通过对比基础准确率与排列后准确率，计算绝对与相对准确率衰减，并识别导致性能下降的关键排列组合，最终形成包含模型标识、问题来源、排列类型及多种精度指标的全面数据集。

特点

该数据集的核心特点在于其多维度的评估框架，不仅记录了模型在不同排列扰动下的原始与变换后的准确率，还细致捕捉了准确率绝对与相对衰减幅度、基础预测与排列后预测的样本总数，以及直接造成性能下降的特定排列数量与类型。特别地，每个样本均包含原始问题文本、排列方式与来源等元数据，使得研究者能够深入剖析模型推理过程中的脆弱环节。这种结构设计使得该数据集不仅适用于评估模型鲁棒性，还能支持对模型内部决策机制的因果分析，为可解释性研究提供量化的实证基础。

使用方法

该数据集主要面向机器学习研究与可解释性分析场景，可直接加载为表格格式进行使用。开发者可通过遍历验证集样本，读取每条记录中的准确率衰减指标与排列信息，实现对不同模型鲁棒性的横向对比。同时，利用`permutation_type`和`permutation_source`字段，可进一步分类探讨不同扰动策略对模型性能的影响模式。对于希望深入分析特定问题的用户，`original_problem`与`permutations_causing_decay`字段提供了丰富的文本与结构化线索，支持构建针对性的实验与可视化分析，从而揭示模型在数学推理中的潜在偏差与行为边界。

背景与挑战

背景概述

该数据集名为aimo-interp-challenge-sample-full，源自AIMO（AI Mathematical Olympiad）挑战赛，旨在探索大型语言模型在数学推理任务中的内部表征机制。数据集创建于近期，由专注于AI可解释性研究的研究人员或机构发布，核心研究问题在于理解模型输入扰动（如问题排列）对推理准确性的影响。通过记录模型在不同排列条件下的精度衰退情况，该数据集为研究推理过程的稳健性与敏感性提供了关键资源，对推动可解释AI与数学推理领域的交叉研究具有重要影响力。

当前挑战

该数据集所解决的领域问题包括：在数学推理任务中，模型对问题结构的微小变化（如排列顺序）极为敏感，导致推理结果失稳，这直接挑战了当前大模型在复杂推理任务中的可靠性与可解释性。构建过程中面临的具体挑战包括：设计有效的排列策略以模拟真实推理中的扰动，同时确保扰动不影响问题的逻辑本质；收集足够多样化的模型预测样本，以精确量化精度衰退；以及处理高维度数据中排列组合爆炸带来的计算与存储开销，确保数据集的实用性与代表性。

常用场景

经典使用场景

该数据集聚焦于大型语言模型（LLM）在数学推理任务中的鲁棒性评估，通过精心设计的输入排列扰动实验，量化模型对问题表述变化的敏感程度。经典使用场景涉及向模型呈现原始数学问题及其经置换操作（如调整条件顺序、重述变量关系）的变体，对比模型在两种设置下的预测精度衰减情况，从而揭示模型对表面形式变换的脆弱性。这一基准为理解LLM的泛化边界提供了标准化测试框架，尤其适用于探测模型是否真正掌握了数学逻辑本质，抑或仅依赖于表层模式匹配。

解决学术问题

在学术研究中，该数据集直指当前大语言模型在推理稳定性方面的关键痛点：细微扰动即可引发性能骤降的现象。它解决了量化模型鲁棒性时缺乏领域特异性指标的难题，通过引入绝对与相对精度衰减度量，准确刻画了排列操作对预测质量的影响。该资源有助于验证各类防御策略（如对抗训练、数据增强）对提升模型逻辑一致性的实际效用，从而推动可解释性评估与鲁棒性理论的深度融合，在神经符号推理和形式化验证领域具有里程碑式的引导意义。

衍生相关工作

该数据集衍生出多项前沿探索工作，包括构建基于重要性评分的输入元素归因框架，用于自动定位导致推理衰退的关键扰动模式。后续研究进一步设计了扰动谱分析工具，将精度衰减与问题复杂度、置换类型进行联合建模，产出面向逻辑鲁棒性的启发式增强策略。亦有工作以此为评测基础，开发了新型的对比学习目标函数，通过显式惩罚表述敏感性来提升模型的因果推理能力，并催生了多个扩展版本，覆盖多语言、多领域数学问题的鲁棒性基准，形成完备的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集