HARD-Math

github2024-11-19 更新2024-11-28 收录

下载链接：

https://github.com/aadityasingh/HARD-Math

下载链接

链接失效反馈

官方服务：

资源简介：

HARD-Math是一个数学推理数据集，包含4,780个来自美国国家数学竞赛的简答题，时间跨度从1950年到2024年9月。数据集包括多个版本，如默认版本、多选题版本、基于证明的问题版本和原始版本。每个问题包含问题文本、正确答案、人类编写的解决方案、年份、竞赛名称、问题编号、难度级别和学科标签。

HARD-Math is a mathematical reasoning dataset comprising 4,780 short-answer questions from U.S. national mathematics competitions, covering the timeframe from 1950 to September 2024. The dataset includes multiple variants, namely the default version, multiple-choice version, proof-based question version, and raw version. Each question contains the problem statement, correct answer, human-authored solution, year, competition name, question number, difficulty level, and subject tags.

创建时间：

2024-11-19

原始信息汇总

HARP 数据集概述

数据集简介

名称: Human Annotated Reasoning Problems (HARP)
描述: 一个包含4,780个简答题的数学推理数据集，来源于美国国家数学竞赛，时间跨度从1950年至2024年9月。

数据集文件

默认数据集: HARP.jsonl.zip，包含4,780个简答题。
多选题数据集: HARP_mcq.jsonl.zip，包含4,110个多选题。
证明题数据集: HARP_proof-based.jsonl.zip，包含310个证明题。
原始数据集: HARP_raw.jsonl.zip，包含所有5,409个问题。

数据集字段

problem: 问题文本
answer: 正确答案
solution_{i}: 人工编写的解决方案（每个问题至少一个）
year/contest/number: 联合唯一标识问题来源的三个字段
level: 难度级别
subject: 问题所属科目标签，可选值包括 [prealgebra, algebra, number_theory, geometry, counting_and_probability, precalculus]

引用

@misc{yue2024harp, title={{HARP}: A challenging human-annotated math reasoning benchmark}, author={Albert S. Yue and Lovish Madaan and Ted Moskovitz and DJ Strouse and Aaditya K. Singh}, year={2024}, url={https://github.com/aadityasingh/HARP} }

搜集汇总

数据集介绍

构建方式

HARD-Math数据集的构建基于美国国家数学竞赛中的4,780个简答题，时间跨度从1950年至2024年9月。该数据集通过系统地收集和整理这些竞赛题目，确保了数据的高质量和多样性。构建过程中，研究团队不仅对原始数据进行了筛选和处理，还提供了多种格式的数据集，包括默认的简答题集、多选题集和基于证明的问题集，以及原始的未处理问题集。此外，数据集的构建还涉及对每个问题的详细标注，如问题文本、正确答案、人类编写的解决方案、问题来源的年份、竞赛名称和编号、难度级别以及学科标签。

使用方法

HARD-Math数据集的使用方法多样，适用于多种数学推理和教育研究场景。研究者可以直接使用默认的简答题集（HARP.jsonl.zip）进行评估和分析，也可以根据需要选择多选题集（HARP_mcq.jsonl.zip）或基于证明的问题集（HARP_proof-based.jsonl.zip）。此外，原始的未处理问题集（HARP_raw.jsonl.zip）为更深入的研究提供了基础数据。数据集中的每个问题都附有详细的标注信息，研究者可以根据这些信息进行多维度的分析和研究。数据集的代码和相关分析工具也一并提供，便于研究者进行自定义的实验和分析。

背景与挑战

背景概述

HARD-Math（Human Annotated Reasoning Problems）数据集是由Albert S. Yue等人于2024年创建的数学推理数据集，涵盖了从1950年至2024年间的4,780个简答题，源自美国国家数学竞赛。该数据集的构建旨在推动数学推理领域的研究，特别是针对复杂问题的解决策略。通过提供详细的答案和解决方案，HARD-Math为研究人员提供了一个丰富的资源库，以评估和改进数学推理算法。此外，数据集的多样性和历史跨度使其在教育和技术领域具有广泛的应用前景。

当前挑战

HARD-Math数据集在构建过程中面临多项挑战。首先，数据集的广泛时间跨度和多样性要求对历史数据进行精细的筛选和处理，以确保数据的准确性和一致性。其次，数学问题的复杂性和多样性使得标注工作异常繁琐，需要专业知识的支持。此外，数据集的公开发布需考虑数据泄露和污染问题，因此采用了压缩格式以保护数据完整性。最后，如何有效利用这些数据进行模型训练和评估，以提升数学推理能力，是当前研究面临的主要挑战。

常用场景

经典使用场景

在数学推理领域，HARD-Math数据集以其丰富的历史问题和多样的题型，成为研究者和教育工作者的重要资源。该数据集的经典使用场景包括但不限于：训练和评估数学推理模型的性能，如自然语言处理中的问答系统；开发和测试教育软件，以提高学生的数学推理能力；以及进行跨学科研究，探索数学问题解决的认知过程。

解决学术问题

HARD-Math数据集通过提供大量经过人工标注的数学问题，解决了数学教育研究中的多个关键问题。首先，它为研究者提供了一个标准化的基准，用于评估和比较不同数学推理模型的效果。其次，该数据集有助于深入理解学生在解决复杂数学问题时的思维过程，从而为教育策略的优化提供科学依据。此外，HARD-Math还推动了跨学科研究，如心理学和计算机科学的结合，探索人类和机器在数学推理上的异同。

实际应用

在实际应用中，HARD-Math数据集被广泛用于开发和改进教育工具和平台。例如，教育软件开发者可以利用该数据集训练智能辅导系统，提供个性化的数学问题解答和反馈。此外，该数据集还被用于设计在线数学竞赛和考试，确保题目的高质量和多样性。通过这些应用，HARD-Math不仅提升了教育资源的有效性，还促进了数学教育的普及和深化。

数据集最近研究