HARP
收藏arXiv2024-12-12 更新2024-12-14 收录
下载链接:
https://github.com/aadityasingh/HARP
下载链接
链接失效反馈官方服务:
资源简介:
HARP是由伦敦大学学院的研究团队创建的一个数学推理数据集,包含5409个问题,来源于美国国家数学竞赛(如A(J)HSME、AMC、AIME、USA(J)MO)。数据集大小为5409个问题,其中4780个问题有可自动验证的答案,涵盖六个难度级别。数据集的创建过程包括从AoPS Wiki上抓取问题、处理HTML、提取问题和解决方案,并进行去重和标注。HARP主要用于评估大型语言模型在数学推理任务中的表现,旨在解决现有基准测试已接近饱和的问题,提供更具挑战性的评估标准。
HARP is a mathematical reasoning dataset developed by a research team at University College London, which contains 5,409 problems sourced from United States national mathematics competitions including A(J)HSME, AMC, AIME and USA(J)MO. Of these problems, 4,780 have automatically verifiable answers, and the dataset spans six difficulty levels. The construction of HARP includes scraping problems from AoPS Wiki, processing HTML files, extracting both the problems and their solutions, as well as performing deduplication and annotation. HARP is primarily utilized to evaluate the performance of large language models (LLMs) on mathematical reasoning tasks, with the goal of addressing the saturation issue of existing benchmark tests and offering more challenging evaluation standards.
提供机构:
伦敦大学学院
创建时间:
2024-12-12
搜集汇总
数据集介绍

构建方式
HARP数据集的构建基于美国国家数学竞赛(A(J)HSME、AMC、AIME、USA(J)MO)中的5,409道题目,这些题目从AoPS Wiki上公开获取。数据集的构建过程包括从HTML文件中提取问题和解答,使用LaTeX公式恢复工具处理数学表达式,并通过一系列标准化和正则表达式处理提取问题、选项、答案和解答。对于具有多个解答的问题,确保所有解答的答案一致性,并去除冗余或低多样性的解答。最终数据集包含5,409道题目,其中4,780道题目的答案可以通过程序自动验证。
使用方法
HARP数据集主要用于评估数学推理能力,特别适合用于测试大型语言模型在复杂数学问题上的表现。研究者可以通过该数据集评估模型在不同难度级别和数学主题上的表现,并探索模型在多选题和短答案题型中的差异。此外,数据集提供的多个人工编写的解答可以用于研究模型在不同表述下的推理能力,以及模型生成解答与人工解答的对比分析。
背景与挑战
背景概述
随着大型语言模型在日常生活中的应用日益广泛,数学推理能力成为评估这些模型的重要指标之一。HARP数据集由Albert S. Yue、Lovish Madaan等研究人员于2024年创建,旨在提供一个具有挑战性的人工标注数学推理基准。该数据集包含了从美国国家数学竞赛(如AHSME、AMC、AIME、USAMO等)中提取的5,409道题目,涵盖了六个难度级别。HARP不仅为前沿模型提供了一个具有挑战性的数学推理测试平台,还通过提供多选题(4,110道)和每道题平均两个以上的人工编写解决方案,为研究模型在不同情境下的推理能力提供了丰富的资源。该数据集的发布旨在推动数学推理领域的进一步研究,并为相关领域的模型评估提供标准化的基准。
当前挑战
HARP数据集的构建面临多重挑战。首先,数学推理问题的复杂性和多样性使得数据集的标注和分类工作异常繁琐,尤其是在确保每道题目的难度和主题标签的准确性方面。其次,数据集的构建过程中需要处理大量的历史竞赛题目,确保这些题目的版权和来源合法性,同时避免与现有数据集(如MATH)的重复。此外,前沿模型在处理高难度问题时的表现仍然不尽如人意,尤其是在最高难度的197道题目中,模型的平均准确率仅为41.1%,表明现有模型在处理复杂数学推理问题时仍存在显著不足。最后,如何有效地利用多选题和多个人工编写的解决方案进行模型评估,也是一个亟待解决的研究问题。
常用场景
经典使用场景
HARP数据集的经典使用场景主要集中在数学推理任务的评估与模型训练。由于该数据集包含了来自美国国家数学竞赛(如AMC、AIME等)的5,409道题目,涵盖了从简单到极难的六个难度级别,因此它被广泛用于测试和提升大语言模型(LLMs)在数学推理方面的能力。通过使用HARP,研究人员可以评估模型在不同难度级别上的表现,并探索如何通过数据增强和模型优化来提高其数学推理能力。
解决学术问题
HARP数据集解决了当前数学推理基准测试中存在的饱和问题,尤其是在现有基准(如MATH)已经被前沿模型接近饱和的情况下。通过引入更具挑战性的数学问题,HARP为研究人员提供了一个新的工具,用于评估和推动模型在复杂数学推理任务上的表现。这不仅有助于揭示模型在处理高难度问题时的局限性,还为开发更强大的数学推理模型提供了宝贵的研究方向。
实际应用
HARP数据集的实际应用场景广泛,尤其是在教育科技和人工智能辅助学习领域。通过使用该数据集训练和评估模型,教育平台可以开发出更智能的数学辅导系统,帮助学生解决复杂的数学问题。此外,HARP还可以用于自动化考试评分系统,特别是在需要处理大量数学题目的标准化考试中,提升评分的准确性和效率。
数据集最近研究
最新研究方向
HARP数据集在数学推理领域的最新研究方向主要集中在提升前沿语言模型在复杂数学问题上的表现。研究者们通过引入多选题和多个人类编写的标准答案,探索了模型在不同难度级别问题上的推理能力。特别是,研究重点在于分析模型在处理高难度问题时的推理过程,以及如何通过增加推理步骤和计算资源来提高模型的准确性。此外,研究还涉及模型在多选题环境下的表现,探讨了选择题对模型推理能力的约束作用,以及如何通过数据多样性和模型生成的负样本提升模型的泛化能力。
相关研究论文
- 1HARP: A challenging human-annotated math reasoning benchmark伦敦大学学院 · 2024年
以上内容由遇见数据集搜集并总结生成



