AIME

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/ReasoningTrap/AIME

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了问题、解决方案和答案的原始和修改版本，旨在用于评估模型在处理修改后指令时的表现。数据集分为训练集，其中包含了34个示例。

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

在数学推理领域，AIME数据集的构建采用了系统化的方法，基于美国数学邀请赛（AIME）的原始题目进行改造。研究团队通过人工标注和算法辅助的方式，对每道题目的题干和解答过程进行了双重修改，生成了对应的修改版本。这一过程确保了数据集中每个样本都包含原始问题与修改后问题的对比，以及相应的解答和答案，为研究推理模型的指令覆盖问题提供了坚实基础。

特点

AIME数据集的显著特点在于其精心设计的双重问题结构，每个样本均包含原始问题与修改后问题的完整对应关系。该数据集涵盖了数学推理中的多种题型，通过对比原始解答与修改解答，揭示了推理模型在处理指令冲突时的行为模式。数据规模虽小但质量高，所有样本均经过严格校验，确保了学术研究的可靠性和可复现性。

使用方法

使用AIME数据集时，研究者可将其直接加载至自然语言处理框架中，通过对比原始问题与修改后问题的模型输出，分析推理模型的稳定性。典型应用包括评估模型对指令覆盖的敏感性，或用于训练对抗性测试流程。数据集已预分割为训练集，支持批量读取和迭代处理，兼容主流机器学习库的操作接口。

背景与挑战

背景概述

AIME数据集诞生于2024年，由研究团队ReasoningTrap在探索推理模型鲁棒性的前沿课题中构建。该数据集聚焦于大型语言模型在指令遵循与逻辑推理之间的冲突问题，旨在诊断模型对预设指令的顽固性行为。通过重构数学问题表述形式，AIME揭示了模型在遭遇语义等效但表述相异的指令时产生的推理偏差，为可解释人工智能领域提供了关键实证基础。

当前挑战

该数据集核心挑战在于解决推理模型对指令语义变化的敏感度不足问题，即模型难以识别形式不同但逻辑等价的问题表述。构建过程中需克服双重难题：既要确保原始问题与修改后问题在数学本质上严格等价，又需保持语言表述的自然性与多样性。此外，标注过程要求研究者精确控制变量，避免引入非预期的语义干扰，这对数据清洗和验证流程提出了极高要求。

常用场景

经典使用场景

在推理模型鲁棒性研究中，AIME数据集被广泛用于评估模型对指令覆盖问题的敏感性。通过对比原始问题与修改后问题的回答差异，研究者能够系统分析模型在面临矛盾指令时的推理稳定性。这一场景为诊断模型逻辑一致性提供了标准化测试框架，尤其在数学推理和常识问答领域具有重要价值。

解决学术问题

该数据集有效解决了推理模型对指令冲突的脆弱性问题，为理解模型决策机制提供了实证基础。通过量化模型在修改问题上的表现偏差，学术界得以深入探究模型泛化能力的边界，推动了对抗性测试范式的创新。这项工作填补了推理模型鲁棒性评估的技术空白，为构建可靠人工智能系统奠定了理论基础。

衍生相关工作

基于AIME数据集的研究催生了多项创新工作，例如指令遵循一致性评估框架和动态推理路径可视化工具。相关成果在EMNLP、ACL等顶级会议上形成了专门的研究方向，推动了对抗性测试基准的标准化进程。这些衍生工作进一步拓展了模型可解释性研究的深度与广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集