AI-MO/aops
收藏Hugging Face2026-03-31 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/AI-MO/aops
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: problem
dtype: string
- name: solution
dtype: string
- name: candidates
sequence: string
- name: tags
sequence: string
- name: metadata
struct:
- name: answer_score
dtype: int64
- name: boxed
dtype: bool
- name: end_of_proof
dtype: bool
- name: n_reply
dtype: int64
- name: path
dtype: string
splits:
- name: train
num_bytes: 298608789
num_examples: 80661
download_size: 140630996
dataset_size: 298608789
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# AoPS: Art of Problem Solving Competition Mathematics
## Dataset Description
This dataset is a collection of **80,661** competition mathematics problems and solutions obtained from the [Art of Problem Solving (AoPS)](https://artofproblemsolving.com/) community wiki and forums. It covers a wide range of mathematical contests and olympiads, including problems from events such as AIME, BAMO, IMO, and various national and memorial competitions.
The dataset was curated by [AI-MO (Project Numina)](https://huggingface.co/AI-MO), an initiative focused on building AI systems capable of mathematical reasoning at the olympiad level.
## Dataset Structure
### Fields
| Column | Type | Description |
|---|---|---|
| `problem` | `string` | The mathematical problem statement, typically formatted in LaTeX. |
| `solution` | `string` | A solution or proof for the problem. May be empty for some entries. |
| `candidates` | `list[string]` | Alternative or candidate solutions contributed by the community. |
| `tags` | `list[string]` | Metadata tags indicating the origin, contest name, and year (e.g., `"origin:aops"`, `"2022 AIME Problems"`). |
| `metadata` | `dict` | Additional metadata about the problem (see below). |
### Metadata Fields
| Field | Type | Description |
|---|---|---|
| `answer_score` | `int64` | Community score or rating of the answer. |
| `boxed` | `bool` | Whether the answer contains a boxed final result (e.g., `\boxed{42}`). |
| `end_of_proof` | `bool` | Whether the solution includes a complete proof ending. |
| `n_reply` | `int64` | Number of community replies or comments on the problem thread. |
| `path` | `string` | Source path in the AoPS collection (e.g., `Contest Collections/2022 Contests/...`). |
### Splits
| Split | Examples |
|---|---|
| `train` | 80,661 |
## Example
```python
{
"problem": "Let $ABC$ be an acute triangle with altitude $AD$ ($D \\in BC$). The line through $C$ parallel to $AB$ meets the perpendicular bisector of $AD$ at $G$. Show that $AC = BC$ if and only if $\\angle AGC = 90°$.",
"solution": "...",
"candidates": ["..."],
"tags": ["origin:aops", "2022 Contests", "2022 3rd Memorial \"Aleksandar Blazhevski-Cane\""],
"metadata": {
"answer_score": 130,
"boxed": false,
"end_of_proof": true,
"n_reply": 3,
"path": "Contest Collections/2022 Contests/2022 3rd Memorial .../2759376.json"
}
}
```
## Topic Coverage
Problems span a broad range of competition mathematics topics, including:
- **Geometry** -- triangle properties, cyclic quadrilaterals, angle chasing
- **Number Theory** -- divisibility, modular arithmetic, Diophantine equations
- **Algebra** -- inequalities, polynomials, functional equations
- **Combinatorics** -- counting, graph theory, board coloring problems
## Usage
```python
from datasets import load_dataset
dataset = load_dataset("AI-MO/aops")
# Access a problem
print(dataset["train"][0]["problem"])
print(dataset["train"][0]["solution"])
```
## Intended Use
- Training and evaluating mathematical reasoning models
- Benchmarking LLMs on competition-level mathematics
- Studying solution quality and problem difficulty distributions
- Building retrieval-augmented generation (RAG) systems for math tutoring
## Source
All problems and solutions originate from the [Art of Problem Solving](https://artofproblemsolving.com/) community.
提供机构:
AI-MO
搜集汇总
数据集介绍

构建方式
该数据集由AI-MO(Project Numina)团队精心构建,旨在推动人工智能在奥林匹克数学推理领域的发展。构建过程主要从Art of Problem Solving(AoPS)社区的维基页面和论坛中系统性地收集了80,661个竞赛数学问题及其解答。每个条目均经过结构化处理,包含了问题陈述、解答、候选答案、标签以及丰富的元数据,如社区评分、证明完整性标识和讨论热度等,确保了数据的高质量和完整性。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,便捷地访问训练集中的问题与解答。该数据集适用于训练和评估数学推理模型,特别是在竞赛级数学任务上的性能测试;同时,也可用于构建检索增强生成系统,支持数学辅导应用的开发,为人工智能在高级数学教育领域的应用提供了坚实的数据基础。
背景与挑战
背景概述
AoPS数据集由AI-MO(Project Numina)于近年构建,旨在推动人工智能在奥林匹克级别数学推理领域的发展。该数据集汇集了来自Art of Problem Solving社区维基与论坛的80,661道竞赛数学问题及其解答,覆盖了AIME、IMO等多项国际知名数学赛事。其核心研究问题聚焦于如何利用大规模、高质量的数学问题资源,训练能够进行复杂逻辑推理与证明生成的AI系统,对数学教育智能化与自动推理研究产生了深远影响。
当前挑战
该数据集致力于解决竞赛数学问题自动求解的领域挑战,包括模型需处理高抽象度的几何、数论与组合数学问题,并生成严谨的符号化证明。在构建过程中,挑战源于原始数据的异构性,如LaTeX格式的多样性与解答完整性的不一致;同时需从社区讨论中提取结构化信息,并确保问题标签与元数据的准确标注,以支撑可靠的模型训练与评估。
常用场景
经典使用场景
在数学推理与人工智能交叉领域,AoPS数据集作为竞赛数学问题的权威集合,常被用于训练和评估大型语言模型的数学解题能力。研究者利用其丰富的几何、代数、数论和组合数学问题,构建端到端的自动推理系统,以模拟人类在奥林匹克数学竞赛中的思维过程。该数据集通过提供结构化的问题陈述与详细解答,为模型学习复杂数学逻辑和证明步骤提供了标准化基准,推动了数学智能向更高层次发展。
解决学术问题
AoPS数据集有效解决了人工智能在高级数学推理中的若干核心挑战,包括复杂问题的形式化表示、多步骤证明的生成以及数学概念的深层理解。它帮助研究者量化模型在竞赛数学任务上的性能,填补了传统数学数据集在难度和多样性上的不足。通过提供带标签的解决方案和社区评分,该数据集促进了数学问题难度评估、解决方案质量分析等研究,为构建可解释、可靠的数学推理AI奠定了数据基础。
实际应用
在实际应用中,AoPS数据集被广泛集成到智能教育工具和数学辅导系统中,支持个性化学习路径的生成。教育科技公司利用其问题库开发自适应学习平台,为学生提供竞赛级别的练习和即时反馈。此外,该数据集还助力构建检索增强生成系统,用于数学问答机器人和在线解题社区,提升数学资源的可访问性,推动STEM教育的普及与深化。
数据集最近研究
最新研究方向
在数学推理与人工智能交叉领域,AoPS数据集已成为推动前沿研究的关键资源。当前研究聚焦于利用该数据集训练大型语言模型,以解决奥林匹克级别的复杂数学问题,探索模型在几何证明、数论推理等结构化任务中的泛化能力。热点方向包括结合检索增强生成技术构建智能辅导系统,以及通过多步骤推理框架提升模型对竞赛数学中隐含逻辑链的理解。这些进展不仅深化了AI在形式科学中的应用,也为自动化教育评估与个性化学习提供了技术基础。
以上内容由遇见数据集搜集并总结生成



