Anon13576245/paper-data
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Anon13576245/paper-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合并的数学问题数据集,用于评估目的。它包含了多种类型的问题,如最终答案问题、证明写作问题、反驳式问题、仅图像选择题和Lean形式化问题。数据集来自多个竞赛或基准测试的分割,因此许多列是可为空的,表示该字段不适用于该行或在源数据中不可用。数据集的结构包括多个特征列,如problem_idx、answer、image、competition等,并详细描述了每列的类型和用途。
This dataset is a merged collection of mathematical problem data used for evaluation. It combines final-answer problems, proof-writing problems, refutation-style problems, image-only multiple-choice problems, and Lean formalization problems into one public dataset repository. The rows come from multiple competition or benchmark splits. Because the source formats differ, many columns are intentionally nullable. A null value means that the field does not apply to that row or was not available in the source data.
提供机构:
Anon13576245
搜集汇总
数据集介绍

构建方式
在数学问题求解与形式化验证的交叉领域中,对多样化问题来源的整合一直是构建综合性评估基准的核心挑战。paper-data数据集通过系统性地合并多个竞赛与学术基准的分片数据,构建了一个异构数学问题仓储。其数据源自国际数学竞赛如AIME、HMMT、USAMO、Putnam、IMC,以及arXiv预印本平台的数学论文段落、Lean形式化问题,并纳入了Kangaroo等含图像题目的专项测试集合。各源数据保留原始分片标识符(competition列)与内部编号(problem_idx),以维持行级可溯源性,同时利用可空列模式处理不同来源间格式差异,确保存储结构的统一性。
特点
该数据集的核心特质在于其显式的异构性与语义完整性。560条训练样本横跨五类问题形态:精确答案型(含LaTeX陈述与答案字段)、证明写作型(附评分标准、分值及示例解法)、Lean形式化验证型(自然语言描述与形式化陈述并存)、反驳评估型(带判断导引),以及纯图像选择题型(Kangaroo分片,问题存于图像列)。数据集通过problem_type列提供话题标签,points与grading_scheme列支撑细粒度评估,而sample_solution为模型微调与参考答案匹配提供基准。所有可空字段的缺失均源自源数据本身的特性,而非数据损坏。
使用方法
使用者应基于competition列或非空条件筛选后施以任务特定逻辑。加载方法简洁,通过Hugging Face datasets库以load_dataset("Anon13576245/paper-data", split="train")完成。对于含图像行,利用Image特征访问image列;Lean形式化行中answer与formal_statement同值,可直接适配答案匹配型评测框架。证明写作行需解析grading_scheme序列化JSON以获取评分细则,而反驳型行则依赖grading_scheme描述判断准则。数据集采用CC-BY-NC-SA 4.0许可,鼓励学术场景下的灵活使用与扩展整合。
背景与挑战
背景概述
在数学推理与形式化验证领域,构建一个覆盖多种题型、来源和难度的统一评测基准一直是研究的难点。该数据集创建于2025年,由匿名研究团队整理发布,旨在整合来自国际数学竞赛(如AIME、HMMT、USAMO、Putnam)、在线题库(Kangaroo、Apex)以及学术预印本(arXiv)的数学问题,并纳入Lean形式化陈述与反证类问题的评测需求。核心研究问题聚焦于如何为自动解题、定理证明和形式化验证提供多维度、标准化的评估平台。该数据集以其异构性(涵盖最终答案、证明写作、图片题和Lean形式化问题)和公开可复现性(采用CC-BY-NC-SA 4.0许可)著称,对推动人工智能在数学推理领域的系统性评估具有重要参考价值。
当前挑战
该数据集面临的挑战来自领域问题与构建过程两个层面。领域问题上,现有评测体系多针对单一题型,而该数据集需统一处理最终答案匹配、证明写作的评分细则评估、反证推理判断以及Lean形式化验证等多种任务,不同任务评价指标的兼容性极低。构建过程中,各来源数据格式差异显著(如Kangaroo图片题与其他文本题的列结构不统一),导致大量字段存在空值,如何在保留原始信息的同时维持数据集的可用性成为难题。此外,Lean形式化陈述的准确性与竞赛答案的标注一致性需要严格核验,而图片题与文本题混合存储增加了多模态数据加载与处理的复杂性。
常用场景
经典使用场景
在数学推理与形式化验证的交叉领域中,paper-data数据集通过整合来自Kangaroo、AIME、HMMT等国际数学竞赛的题目,以及arXiv数学论文、Lean形式化问题、反证风格题目等多元来源,为评估大语言模型的数学推理能力提供了统一基准。该数据集支持最终答案预测、证明题评分、反证任务以及Lean形式化验证等多种经典评测范式,尤其适合用于对比不同模型在符号推理、多模态理解(如图像型选择题)和形式化证明等维度的表现。研究人员常借助该数据集检验模型对数学问题结构的理解深度,以及从自然语言到形式语言转换的准确性。
衍生相关工作
围绕paper-data数据集,衍生出多项推动数学AI发展的代表性工作。一方面,研究者基于其竞赛子集(如AIME、Putnam)训练了擅长复杂多步推理的数学语言模型,部分工作将形式化验证列(formal_statement)与自然语言题目对齐,训练出能自动生成Lean证明的神经符号系统。另一方面,反证风格题(refutation-style)催生了面向错误检测与反驳论证的判别模型,而Kangaroo图像选择题则激发了多模态数学理解方向的探索。此外,该数据集的大规模arXiv论文题集合,被用于提升模型从学术文献中抽取数学命题与证明思路的能力,间接支撑了自动定理发现等前沿课题。
数据集最近研究
最新研究方向
在当前人工智能与数学推理交汇的前沿领域,paper-data数据集整合了来自多项国际数学竞赛与arXiv论文的异构数学问题,涵盖最终答案求解、证明撰写、反驳论证及Lean形式化验证等多元任务类型,其核心价值在于为大型语言模型的符号推理与数学能力评估提供统一的基准测试框架。随着DeepMind、OpenAI等机构在形式化数学证明与神经符号系统方向取得突破性进展,该数据集通过纳入Kangaroo、AIME、USAMO等跨国竞赛题目以及Lean形式化表述,精准回应了业界对模型数学严密性和多模态理解能力的迫切需求。尤为值得注意的是,数据集收录2025至2026年最新赛季试题与arXiv非对称验证样本,使之成为衡量前沿模型在动态数学环境下的泛化性与鲁棒性的关键标尺,其设计理念推动了数学推理评估从单一答案匹配向结构化评分与形式化验证的范式跃迁。
以上内容由遇见数据集搜集并总结生成



