math-squared

Hugging Face2025-01-25 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/veds12/math-squared

下载链接

链接失效反馈

官方服务：

资源简介：

MATH2是一个数学推理评估数据集，采用了一种人类参与的循环方法生成，该方法在论文《AI-Assisted Generation of Difficult Math Questions》中提出。数据集包含210个问题，这些问题是通过结合两个数学领域技能生成的，这些技能来源于MATH数据集。该数据集旨在用于评估大型语言模型在数学推理任务上的表现。

MATH² is a mathematical reasoning evaluation dataset generated via a human-in-the-loop methodology proposed in the paper *AI-Assisted Generation of Difficult Math Questions*. It consists of 210 questions generated by combining two mathematical domain skills derived from the MATH dataset. This dataset is designed to evaluate the performance of large language models (LLMs) on mathematical reasoning tasks.

创建时间：

2025-01-22

原始信息汇总

数据集概述

数据集名称

MATH²

数据集描述

MATH² 是一个数学推理评估数据集，通过人类在环（human-in-the-loop）方法筛选而成，该方法在论文 AI-Assisted Generation of Difficult Math Questions 中提出。该数据集包含 210 个问题，这些问题通过结合 2 个数学领域技能使用前沿大型语言模型（LLMs）形成。这些技能是从 MATH [Hendrycks et al., 2021] 数据集中提取的。

数据集来源

论文： AI-Assisted Generation of Difficult Math Questions

使用场景

MATH² 用于评估 LLMs 在数学推理任务上的表现。模型在 MATH² 上的表现被发现与其在 MATH [Hendrycks et al., 2021] 数据集上的表现存在二次关系。

版权信息

许可： MIT

任务分类

问题回答
文本生成
文本到文本生成

语言

英语 (en)

数据量

小于 1K

搜集汇总

数据集介绍

构建方式

MATH²数据集的构建采取了人类参与循环（human-in-the-loop）的方式，该方法结合了前沿的大型语言模型（LLM），通过将数学领域中的两项技能进行组合，形成210道数学问题。这些技能是从MATH数据集中提炼而来，确保了数据集在数学推理任务上的针对性和深度。

使用方法

使用MATH²数据集时，研究者可以将其作为数学推理任务的评估工具，通过对比模型在不同数据集上的表现，探究模型在数学问题解决上的性能和局限性。引用数据集时，应参照相关学术论文的标准格式进行，以保障学术规范的遵守和知识传播的准确性。

背景与挑战

背景概述

MATH2数据集是在2024年由Shah等人基于人工智能辅助方法构建的数学推理评估数据集。该数据集的构建理念源自于对数学领域技能的深入研究，其技能提取自Hendrycks等人在2021年提出的MATH数据集。MATH2数据集包含了210个问题，这些问题是通过结合两种数学领域技能，利用前沿的大型语言模型（LLM）生成的。该数据集的创建旨在评估LLM在数学推理任务上的表现，其研究成果对数学教育、自然语言处理以及人工智能等领域具有重要的参考价值。

当前挑战

MATH2数据集面临的挑战主要在于两个方面：一是如何准确评估LLM在数学推理任务上的表现，这需要解决的问题包括但不限于模型对数学问题的理解深度、推理逻辑的准确性等；二是数据集构建过程中的挑战，如何确保生成的问题既具有足够的难度，又能体现数学领域技能的复合性，同时还要保持问题的合成性和评估的有效性。这些问题对于提升数据集的质量和应用价值至关重要。

常用场景

经典使用场景

在数学推理研究领域，MATH2数据集以其独特的设计理念，成为评估大型语言模型数学推理能力的重要工具。该数据集通过结合两个数学领域技能，生成具有挑战性的数学问题，为研究者提供了一个综合性的评价平台。

解决学术问题

MATH2数据集解决了传统数学问题数据集在难度和复杂性上的不足，为学术研究提供了更加真实和具有挑战性的测试案例。它有助于评估模型在面对复杂数学推理任务时的表现，进而推动数学推理模型的改进与发展。

实际应用

在实际应用中，MATH2数据集可用于教育和培训领域，帮助设计更具挑战性的数学练习题，提升学生的数学推理能力。同时，它也为人工智能辅助教育提供了重要的数据支持。

数据集最近研究