Anon13576245/paper-data

Name: Anon13576245/paper-data
Creator: Anon13576245
Published: 2026-05-01 15:04:31
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Anon13576245/paper-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合并的数学问题数据集，用于评估目的。它包含了多种类型的问题，如最终答案问题、证明写作问题、反驳式问题、仅图像选择题和Lean形式化问题。数据集来自多个竞赛或基准测试的分割，因此许多列是可为空的，表示该字段不适用于该行或在源数据中不可用。数据集的结构包括多个特征列，如problem_idx、answer、image、competition等，并详细描述了每列的类型和用途。

This dataset is a merged collection of mathematical problem data used for evaluation. It combines final-answer problems, proof-writing problems, refutation-style problems, image-only multiple-choice problems, and Lean formalization problems into one public dataset repository. The rows come from multiple competition or benchmark splits. Because the source formats differ, many columns are intentionally nullable. A null value means that the field does not apply to that row or was not available in the source data.

提供机构：

Anon13576245

搜集汇总

数据集介绍

构建方式

在数学问题求解与形式化验证的交叉领域中，对多样化问题来源的整合一直是构建综合性评估基准的核心挑战。paper-data数据集通过系统性地合并多个竞赛与学术基准的分片数据，构建了一个异构数学问题仓储。其数据源自国际数学竞赛如AIME、HMMT、USAMO、Putnam、IMC，以及arXiv预印本平台的数学论文段落、Lean形式化问题，并纳入了Kangaroo等含图像题目的专项测试集合。各源数据保留原始分片标识符（competition列）与内部编号（problem_idx），以维持行级可溯源性，同时利用可空列模式处理不同来源间格式差异，确保存储结构的统一性。

特点

该数据集的核心特质在于其显式的异构性与语义完整性。560条训练样本横跨五类问题形态：精确答案型（含LaTeX陈述与答案字段）、证明写作型（附评分标准、分值及示例解法）、Lean形式化验证型（自然语言描述与形式化陈述并存）、反驳评估型（带判断导引），以及纯图像选择题型（Kangaroo分片，问题存于图像列）。数据集通过problem_type列提供话题标签，points与grading_scheme列支撑细粒度评估，而sample_solution为模型微调与参考答案匹配提供基准。所有可空字段的缺失均源自源数据本身的特性，而非数据损坏。

使用方法

使用者应基于competition列或非空条件筛选后施以任务特定逻辑。加载方法简洁，通过Hugging Face datasets库以load_dataset("Anon13576245/paper-data", split="train")完成。对于含图像行，利用Image特征访问image列；Lean形式化行中answer与formal_statement同值，可直接适配答案匹配型评测框架。证明写作行需解析grading_scheme序列化JSON以获取评分细则，而反驳型行则依赖grading_scheme描述判断准则。数据集采用CC-BY-NC-SA 4.0许可，鼓励学术场景下的灵活使用与扩展整合。

背景与挑战

背景概述

在数学推理与形式化验证领域，构建一个覆盖多种题型、来源和难度的统一评测基准一直是研究的难点。该数据集创建于2025年，由匿名研究团队整理发布，旨在整合来自国际数学竞赛（如AIME、HMMT、USAMO、Putnam）、在线题库（Kangaroo、Apex）以及学术预印本（arXiv）的数学问题，并纳入Lean形式化陈述与反证类问题的评测需求。核心研究问题聚焦于如何为自动解题、定理证明和形式化验证提供多维度、标准化的评估平台。该数据集以其异构性（涵盖最终答案、证明写作、图片题和Lean形式化问题）和公开可复现性（采用CC-BY-NC-SA 4.0许可）著称，对推动人工智能在数学推理领域的系统性评估具有重要参考价值。

当前挑战

该数据集面临的挑战来自领域问题与构建过程两个层面。领域问题上，现有评测体系多针对单一题型，而该数据集需统一处理最终答案匹配、证明写作的评分细则评估、反证推理判断以及Lean形式化验证等多种任务，不同任务评价指标的兼容性极低。构建过程中，各来源数据格式差异显著（如Kangaroo图片题与其他文本题的列结构不统一），导致大量字段存在空值，如何在保留原始信息的同时维持数据集的可用性成为难题。此外，Lean形式化陈述的准确性与竞赛答案的标注一致性需要严格核验，而图片题与文本题混合存储增加了多模态数据加载与处理的复杂性。

常用场景

经典使用场景

在数学推理与形式化验证的交叉领域中，paper-data数据集通过整合来自Kangaroo、AIME、HMMT等国际数学竞赛的题目，以及arXiv数学论文、Lean形式化问题、反证风格题目等多元来源，为评估大语言模型的数学推理能力提供了统一基准。该数据集支持最终答案预测、证明题评分、反证任务以及Lean形式化验证等多种经典评测范式，尤其适合用于对比不同模型在符号推理、多模态理解（如图像型选择题）和形式化证明等维度的表现。研究人员常借助该数据集检验模型对数学问题结构的理解深度，以及从自然语言到形式语言转换的准确性。

衍生相关工作

围绕paper-data数据集，衍生出多项推动数学AI发展的代表性工作。一方面，研究者基于其竞赛子集（如AIME、Putnam）训练了擅长复杂多步推理的数学语言模型，部分工作将形式化验证列（formal_statement）与自然语言题目对齐，训练出能自动生成Lean证明的神经符号系统。另一方面，反证风格题（refutation-style）催生了面向错误检测与反驳论证的判别模型，而Kangaroo图像选择题则激发了多模态数学理解方向的探索。此外，该数据集的大规模arXiv论文题集合，被用于提升模型从学术文献中抽取数学命题与证明思路的能力，间接支撑了自动定理发现等前沿课题。

数据集最近研究