HARDMATH

Name: HARDMATH
Creator: 哈佛大学工程与应用科学学院
Published: 2024-10-14 04:09:41
License: 暂无描述

arXiv2024-10-14 更新2024-10-16 收录

下载链接：

https://github.com/sarahmart/HARDMath

下载链接

链接失效反馈

官方服务：

资源简介：

HARDMATH数据集由哈佛大学工程与应用科学学院创建，专注于高级应用数学问题的挑战性问题，特别是渐近方法。该数据集包含1,466个问题，涵盖代数方程、常微分方程和积分等，这些问题在实际科学和工程环境中常见，但通常没有精确解。数据集通过自动生成算法创建，确保问题和解决方案的多样性和复杂性。HARDMATH旨在评估大型语言模型在高级数学推理和近似分析技术方面的能力，特别是在科学研究和工程应用中。

The HARDMATH dataset was developed by the Harvard School of Engineering and Applied Sciences (SEAS), focusing on challenging problems in advanced applied mathematics, particularly asymptotic methods. This dataset contains 1,466 problems covering algebraic equations, ordinary differential equations, integrals, and other topics commonly encountered in real-world scientific and engineering contexts, yet these problems typically have no exact solutions. The dataset is constructed using automated generation algorithms to ensure the diversity and complexity of both the problems and their accompanying solutions. HARDMATH aims to evaluate the capabilities of large language models (LLMs) in advanced mathematical reasoning and approximate analytical techniques, especially for scientific research and engineering applications.

提供机构：

哈佛大学工程与应用科学学院

创建时间：

2024-10-14

原始信息汇总

HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics

数据集概述

名称: HARDMath
类型: 应用数学难题基准数据集
目的: 用于评估大型语言模型（LLMs）在应用数学难题上的推理能力
特点: 包含研究生水平的难题，涉及高级问题解决技巧、近似方法和数学直觉

数据集内容

问题数量:
- 全测试集: 1,050个问题
- 迷你测试集: 437个问题
- “Word Problem in Context”集: 40个手写问题
问题类型:
- 无量纲化的符号多项式
- 无量纲化的数值多项式
- 多项式求根
- 多项式根的修正项
- 非线性常微分方程
- 积分
- 拉普拉斯积分

数据格式

文件格式: CSV 或 JSON
数据字段:
- question: 问题文本
- solution: 解答文本
- question_type: 问题类型
- answer_type: 答案类型
- extracted_answer: 最终答案的LaTeX表达式
- small_eval_point: “小”解法评估点的x值
- small_analytical: “小”解法评估点的解析解数值
- small_numerical: “小”解法评估点的数值解数值
- large_eval_point: “大”解法评估点的x值
- large_analytical: “大”解法评估点的解析解数值
- large_numerical: “大”解法评估点的数值解数值

数据生成

生成工具: Jupyter Notebook ([problem_type]_generator.ipynb)
生成步骤:
- 选择问题类型
- 设置生成问题的数量 (num_problems)
- 运行Notebook生成问题和解答，并保存为CSV文件

数据评估

环境设置:
- 使用requirements.yml文件创建Conda环境
- 激活环境: conda activate hardmath-env
运行命令:
- 使用Python脚本进行评估
- 示例命令: bash python generate_response_and_score.py --data_dir data --input_file eval_HARDMath.json --example_file example_HARDMath_1shot.json --output_dir results/test --output_file nondimensionalization_symbolic_0shot_gpt4.json --model gpt-3.5-turbo --grader gpt-4o --key YOUR_API_KEY --question_type nondimensionalization_symbolic --temperature 0.0
输出:
- 结果保存为JSON文件，包含提示、模型响应、提取答案和比较分数

搜集汇总

数据集介绍

构建方式

HARDMATH数据集的构建基于研究生级别的渐近方法课程，涵盖了在实际科学和工程环境中常见的代数方程、常微分方程（ODEs）和积分问题。该数据集通过自动生成算法创建，确保了问题和解决方案的多样性和复杂性。生成过程中使用了SymPy和SciPy库来实现数学过程，确保了问题和解决方案的准确性。每个问题都经过详细验证，确保其近似解与数值基准解的误差小于10%。

特点

HARDMATH数据集的独特之处在于其专注于渐近推理，这是现有大型语言模型（LLM）基准数据集中较少涉及的领域。数据集包含了1,466个挑战性问题，这些问题不仅需要数学推理，还需要计算工具和主观判断。此外，HARDMATH的生成算法允许无限扩展数据集规模，为LLM的评估和模型开发提供了强大的工具。

使用方法

HARDMATH数据集适用于评估和提升大型语言模型在高级应用数学问题上的表现。研究者可以使用HARDMATH-MINI子集来快速评估模型的性能，或使用完整数据集进行更深入的模型开发和微调。数据集中的问题类型多样，包括非量纲化、多项式根求解、常微分方程和积分问题，每种问题都附有详细的提示和解决方案格式，便于模型学习和应用。

背景与挑战

背景概述

在现有的自然语言处理模型（如大型语言模型，LLMs）的基准数据集中，高级应用数学问题的代表性不足。为了填补这一空白，哈佛大学工程与应用科学学院的Michael P. Brenner教授及其团队于2024年推出了HARDMATH数据集。该数据集灵感来源于一门关于渐近方法的研究生课程，涵盖了需要分析近似技术的挑战性应用数学问题。这些问题要求结合数学推理、计算工具和主观判断，使得LLMs难以应对。HARDMATH数据集通过自动生成大量问题，并使用数值基准验证解决方案，旨在评估LLMs在处理复杂数学问题上的能力。

当前挑战

HARDMATH数据集面临的挑战主要集中在两个方面：一是解决领域问题的复杂性，这些问题涉及积分、常微分方程（ODEs）和偏微分方程（PDEs），通常没有封闭形式的解，必须采用不同的技术来处理；二是数据集构建过程中遇到的挑战，包括自动生成问题的复杂性和确保生成的解决方案与数值基准的高度一致性。此外，当前LLMs在处理这些高级研究生水平的应用数学问题时表现不佳，突显了提升LLMs数学能力的迫切需求。

常用场景

经典使用场景

HARDMATH数据集的经典使用场景在于评估和提升大型语言模型（LLMs）在处理高级应用数学问题上的能力。该数据集特别适用于测试模型在渐近分析和近似解法方面的表现，这些问题通常涉及复杂的数学推理、计算工具和主观判断。通过在HARDMATH上的训练和测试，研究者可以更全面地了解LLMs在处理实际科学和工程问题中的数学推理能力。

实际应用

在实际应用中，HARDMATH数据集可以用于开发和优化那些需要高级数学推理能力的AI系统。例如，在科学研究和工程设计中，许多问题无法通过解析方法解决，而需要依赖近似解法。通过使用HARDMATH数据集，开发者可以训练模型在这些领域中更准确地进行预测和决策，从而提高实际应用的效率和可靠性。

衍生相关工作

HARDMATH数据集的引入催生了一系列相关研究工作，特别是在提升LLMs数学推理能力的方向上。例如，研究者们开始探索如何通过改进提示技术和微调方法来提高模型在HARDMATH上的表现。此外，该数据集还激发了对LLMs使用外部工具能力的研究，特别是在处理那些无法通过传统方法解决的复杂数学问题时。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集