five

AI-MO/aops

收藏
Hugging Face2026-03-31 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/AI-MO/aops
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: problem dtype: string - name: solution dtype: string - name: candidates sequence: string - name: tags sequence: string - name: metadata struct: - name: answer_score dtype: int64 - name: boxed dtype: bool - name: end_of_proof dtype: bool - name: n_reply dtype: int64 - name: path dtype: string splits: - name: train num_bytes: 298608789 num_examples: 80661 download_size: 140630996 dataset_size: 298608789 configs: - config_name: default data_files: - split: train path: data/train-* --- # AoPS: Art of Problem Solving Competition Mathematics ## Dataset Description This dataset is a collection of **80,661** competition mathematics problems and solutions obtained from the [Art of Problem Solving (AoPS)](https://artofproblemsolving.com/) community wiki and forums. It covers a wide range of mathematical contests and olympiads, including problems from events such as AIME, BAMO, IMO, and various national and memorial competitions. The dataset was curated by [AI-MO (Project Numina)](https://huggingface.co/AI-MO), an initiative focused on building AI systems capable of mathematical reasoning at the olympiad level. ## Dataset Structure ### Fields | Column | Type | Description | |---|---|---| | `problem` | `string` | The mathematical problem statement, typically formatted in LaTeX. | | `solution` | `string` | A solution or proof for the problem. May be empty for some entries. | | `candidates` | `list[string]` | Alternative or candidate solutions contributed by the community. | | `tags` | `list[string]` | Metadata tags indicating the origin, contest name, and year (e.g., `"origin:aops"`, `"2022 AIME Problems"`). | | `metadata` | `dict` | Additional metadata about the problem (see below). | ### Metadata Fields | Field | Type | Description | |---|---|---| | `answer_score` | `int64` | Community score or rating of the answer. | | `boxed` | `bool` | Whether the answer contains a boxed final result (e.g., `\boxed{42}`). | | `end_of_proof` | `bool` | Whether the solution includes a complete proof ending. | | `n_reply` | `int64` | Number of community replies or comments on the problem thread. | | `path` | `string` | Source path in the AoPS collection (e.g., `Contest Collections/2022 Contests/...`). | ### Splits | Split | Examples | |---|---| | `train` | 80,661 | ## Example ```python { "problem": "Let $ABC$ be an acute triangle with altitude $AD$ ($D \\in BC$). The line through $C$ parallel to $AB$ meets the perpendicular bisector of $AD$ at $G$. Show that $AC = BC$ if and only if $\\angle AGC = 90°$.", "solution": "...", "candidates": ["..."], "tags": ["origin:aops", "2022 Contests", "2022 3rd Memorial \"Aleksandar Blazhevski-Cane\""], "metadata": { "answer_score": 130, "boxed": false, "end_of_proof": true, "n_reply": 3, "path": "Contest Collections/2022 Contests/2022 3rd Memorial .../2759376.json" } } ``` ## Topic Coverage Problems span a broad range of competition mathematics topics, including: - **Geometry** -- triangle properties, cyclic quadrilaterals, angle chasing - **Number Theory** -- divisibility, modular arithmetic, Diophantine equations - **Algebra** -- inequalities, polynomials, functional equations - **Combinatorics** -- counting, graph theory, board coloring problems ## Usage ```python from datasets import load_dataset dataset = load_dataset("AI-MO/aops") # Access a problem print(dataset["train"][0]["problem"]) print(dataset["train"][0]["solution"]) ``` ## Intended Use - Training and evaluating mathematical reasoning models - Benchmarking LLMs on competition-level mathematics - Studying solution quality and problem difficulty distributions - Building retrieval-augmented generation (RAG) systems for math tutoring ## Source All problems and solutions originate from the [Art of Problem Solving](https://artofproblemsolving.com/) community.
提供机构:
AI-MO
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由AI-MO(Project Numina)团队精心构建,旨在推动人工智能在奥林匹克数学推理领域的发展。构建过程主要从Art of Problem Solving(AoPS)社区的维基页面和论坛中系统性地收集了80,661个竞赛数学问题及其解答。每个条目均经过结构化处理,包含了问题陈述、解答、候选答案、标签以及丰富的元数据,如社区评分、证明完整性标识和讨论热度等,确保了数据的高质量和完整性。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,便捷地访问训练集中的问题与解答。该数据集适用于训练和评估数学推理模型,特别是在竞赛级数学任务上的性能测试;同时,也可用于构建检索增强生成系统,支持数学辅导应用的开发,为人工智能在高级数学教育领域的应用提供了坚实的数据基础。
背景与挑战
背景概述
AoPS数据集由AI-MO(Project Numina)于近年构建,旨在推动人工智能在奥林匹克级别数学推理领域的发展。该数据集汇集了来自Art of Problem Solving社区维基与论坛的80,661道竞赛数学问题及其解答,覆盖了AIME、IMO等多项国际知名数学赛事。其核心研究问题聚焦于如何利用大规模、高质量的数学问题资源,训练能够进行复杂逻辑推理与证明生成的AI系统,对数学教育智能化与自动推理研究产生了深远影响。
当前挑战
该数据集致力于解决竞赛数学问题自动求解的领域挑战,包括模型需处理高抽象度的几何、数论与组合数学问题,并生成严谨的符号化证明。在构建过程中,挑战源于原始数据的异构性,如LaTeX格式的多样性与解答完整性的不一致;同时需从社区讨论中提取结构化信息,并确保问题标签与元数据的准确标注,以支撑可靠的模型训练与评估。
常用场景
经典使用场景
在数学推理与人工智能交叉领域,AoPS数据集作为竞赛数学问题的权威集合,常被用于训练和评估大型语言模型的数学解题能力。研究者利用其丰富的几何、代数、数论和组合数学问题,构建端到端的自动推理系统,以模拟人类在奥林匹克数学竞赛中的思维过程。该数据集通过提供结构化的问题陈述与详细解答,为模型学习复杂数学逻辑和证明步骤提供了标准化基准,推动了数学智能向更高层次发展。
解决学术问题
AoPS数据集有效解决了人工智能在高级数学推理中的若干核心挑战,包括复杂问题的形式化表示、多步骤证明的生成以及数学概念的深层理解。它帮助研究者量化模型在竞赛数学任务上的性能,填补了传统数学数据集在难度和多样性上的不足。通过提供带标签的解决方案和社区评分,该数据集促进了数学问题难度评估、解决方案质量分析等研究,为构建可解释、可靠的数学推理AI奠定了数据基础。
实际应用
在实际应用中,AoPS数据集被广泛集成到智能教育工具和数学辅导系统中,支持个性化学习路径的生成。教育科技公司利用其问题库开发自适应学习平台,为学生提供竞赛级别的练习和即时反馈。此外,该数据集还助力构建检索增强生成系统,用于数学问答机器人和在线解题社区,提升数学资源的可访问性,推动STEM教育的普及与深化。
数据集最近研究
最新研究方向
在数学推理与人工智能交叉领域,AoPS数据集已成为推动前沿研究的关键资源。当前研究聚焦于利用该数据集训练大型语言模型,以解决奥林匹克级别的复杂数学问题,探索模型在几何证明、数论推理等结构化任务中的泛化能力。热点方向包括结合检索增强生成技术构建智能辅导系统,以及通过多步骤推理框架提升模型对竞赛数学中隐含逻辑链的理解。这些进展不仅深化了AI在形式科学中的应用,也为自动化教育评估与个性化学习提供了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作