HARP

github2024-11-28 更新2024-12-01 收录

下载链接：

https://github.com/aadityasingh/HARP

下载链接

链接失效反馈

官方服务：

资源简介：

HARP是一个数学推理数据集，包含4,780个来自美国国家数学竞赛的简答题，时间跨度从1950年到2024年9月。数据集包括多个版本，如默认的简答题集、多项选择题集、基于证明的问题集以及原始数据集。每个问题包含问题文本、正确答案、人类编写的解决方案、年份、竞赛、编号、难度级别和学科标签。

HARP is a mathematical reasoning dataset containing 4,780 short-answer questions sourced from the United States National Mathematics Competitions, spanning the period from 1950 to September 2024. The dataset includes multiple variants, namely the default short-answer subset, multiple-choice question subset, proof-based question subset, and the original dataset. Each problem in the dataset contains the question text, correct answer, human-written solution, year, competition name, unique identifier, difficulty level, and subject tag.

创建时间：

2024-11-19

原始信息汇总

HARP 数据集概述

数据集简介

名称: Human Annotated Reasoning Problems (HARP)
类型: 数学推理数据集
规模: 包含4,780个简答题，涵盖1950年至2024年9月的美国全国数学竞赛题目。

数据集文件

HARP.jsonl.zip: 包含4,780个简答题，是默认的评估数据集。
HARP_mcq.jsonl.zip: 包含4,110个多项选择题。
HARP_proof-based.jsonl.zip: 包含310个证明题。
HARP_raw.jsonl.zip: 包含所有5,409个原始问题及其处理后的数据。

数据集字段

problem: 问题文本
answer: 标准答案
solution_{i}: 人工编写的解决方案（每个问题至少一个）
year/contest/number: 联合唯一标识问题来源的三个字段
level: 难度级别
subject: 问题所属的学科标签，包括 [prealgebra, algebra, number_theory, geometry, counting_and_probability, precalculus]

引用信息

@misc{yue2024harp, title={{HARP}: A challenging human-annotated math reasoning benchmark}, author={Albert S. Yue and Lovish Madaan and Ted Moskovitz and DJ Strouse and Aaditya K. Singh}, year={2024}, url={https://github.com/aadityasingh/HARP} }

搜集汇总

数据集介绍

构建方式

HARP数据集的构建基于美国国家数学竞赛中的4,780个简答题，时间跨度从1950年至2024年9月。该数据集通过精心筛选和标注，确保每个问题都附有至少一个人类编写的解决方案，从而为数学推理研究提供了高质量的资源。此外，数据集还包括问题的来源信息、难度级别和学科标签，以增强其多样性和实用性。

使用方法

使用HARP数据集时，用户可以选择不同的数据子集，如默认的简答题集、选择题集或证明题集，以适应特定的研究或评估需求。数据集以jsonl格式提供，并压缩为zip文件，以确保数据的安全性和完整性。此外，该数据集还附带了构建和评估数据集的代码，方便研究人员进行进一步的分析和实验。

背景与挑战

背景概述

Human Annotated Reasoning Problems (HARP) 是一个数学推理数据集，由4,780个简答题组成，这些题目来自美国国家数学竞赛，时间跨度从1950年至2024年9月。该数据集由Albert S. Yue、Lovish Madaan、Ted Moskovitz、DJ Strouse和Aaditya K. Singh等人创建，旨在提供一个具有挑战性的数学推理基准。HARP不仅涵盖了多个数学领域，如代数、几何和数论等，还通过不同难度级别的题目，为研究者提供了一个全面评估数学推理能力的平台。该数据集的发布对于推动数学教育和人工智能在数学领域的应用具有重要意义。

当前挑战

HARP数据集在构建过程中面临多项挑战。首先，数据集的多样性要求涵盖从基础代数到高级微积分的广泛数学领域，这需要对不同难度和类型的题目进行精心选择和标注。其次，确保数据集的准确性和一致性也是一个重要挑战，因为每个题目都需要经过人工验证和标注。此外，数据集的发布形式也需考虑避免数据泄露，因此采用了压缩格式。最后，如何有效地评估和比较不同模型在数学推理任务上的表现，也是该数据集面临的一个重要研究问题。

常用场景

经典使用场景

HARP数据集的经典使用场景主要集中在数学推理任务的评估与训练上。该数据集包含了从1950年至2024年美国国家数学竞赛中的4,780个简答题，涵盖了从基础代数到高等数学的多个领域。研究者们利用这些高质量的数学问题及其详细解答，可以开发和验证各种数学推理模型，特别是在自然语言处理和人工智能领域，这些模型能够理解和解决复杂的数学问题。

解决学术问题

HARP数据集在学术研究中解决了数学推理任务的基准测试问题。通过提供大量经过人工标注的数学问题及其解答，该数据集为研究者提供了一个标准化的评估平台，用于衡量和比较不同数学推理模型的性能。这不仅推动了数学教育领域的研究进展，还促进了人工智能在复杂问题解决能力上的提升，具有重要的学术价值和影响力。

实际应用

在实际应用中，HARP数据集被广泛用于开发和优化数学教育软件和在线学习平台。通过分析数据集中的问题和解答，教育科技公司能够设计出更有效的教学工具和练习题，帮助学生提高数学推理能力。此外，该数据集还被用于训练智能辅导系统，这些系统能够根据学生的表现提供个性化的学习建议和反馈，从而提升学习效果。

数据集最近研究