hkust-nlp/dart-math-hard

Hugging Face2024-08-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hkust-nlp/dart-math-hard

下载链接

链接失效反馈

资源简介：

DART-Math-Hard数据集是一个用于数学推理的指令调优数据集，包含约585k个数学问答对样本。该数据集通过应用DARS-Prop2Diff方法从MATH和GSK8K训练集中构建，特别强调对困难查询的偏置，与传统的拒绝采样方法相反。DART-Math-Hard在许多具有挑战性的数学推理基准测试中达到了最先进的性能。

提供机构：

hkust-nlp

原始信息汇总

数据集概述

基本信息

数据集名称: DART-Math-Hard
数据集大小: 约585,000个数学问答对样本
数据集用途: 用于数学问题解决的难度感知拒绝调优
数据集特点: 引入对困难查询的故意偏差，与传统的拒绝采样相反

数据结构

特征:
- query: 字符串类型
- response: 字符串类型

数据划分

训练集:
- 样本数量: 585,392
- 数据大小: 931,749,217字节

许可证

许可证类型: MIT

任务类别

任务类别: 问答

语言

语言: 英语

数据集构建方法

构建方法: 使用DARS-Prop2Diff策略，从MATH和GSK8K训练集中选择查询集构建

性能比较

性能表现: 通常略优于DART-Math-Uniform（约1%绝对值）

与其他数学指令调优数据集的比较

数据集比较:
- DART-Math-Hard: 约585K样本，使用DeepSeekMath-7B-RL，开源
- DART-Math-Uniform: 约591K样本，使用DeepSeekMath-7B-RL，开源
- 其他数据集: 如WizardMath, MetaMathQA等，样本数量和合成代理各异，开源情况不一

数据集构建策略

DARS策略:
- Uniform: 每个查询累积$k_u$正确响应
- Prop2Diff: 每个查询的正确响应数量与其难度分数成比例，偏向更困难的查询

AI搜集汇总

数据集介绍

构建方式

该数据集通过应用难度感知拒绝采样（DARS-Prop2Diff）方法，从MATH和GSM8K训练集中提取查询集，构建了约585,000个数学问答对。此方法旨在增加困难查询的响应数量，与传统的拒绝采样方法形成对比，后者往往偏向于简单查询。通过这种方式，数据集实现了对困难数学问题的针对性增强，从而在多个挑战性数学推理基准上达到了最先进的表现。

特点

DART-Math-Hard数据集的一个显著特点是其对困难查询的刻意偏重，这与大多数现有数据集偏向简单查询的倾向形成鲜明对比。此外，该数据集是开源的，且数据效率极高，适用于数学推理的指令调优。其构建方法确保了数据集在处理复杂数学问题时的有效性和针对性，使其在数学推理任务中表现卓越。

使用方法

该数据集主要用于文本生成任务，特别是数学问题的解答生成。用户可以通过HuggingFace的Datasets库加载该数据集，并利用其提供的训练集进行模型训练。数据集的特征包括查询（query）和响应（response），均为字符串类型。通过使用该数据集，研究人员和开发者可以提升模型在处理复杂数学问题上的表现，尤其是在需要高难度推理能力的场景中。

背景与挑战

背景概述

DART-Math-Hard数据集由香港科技大学的NLP研究团队创建，旨在通过难度感知拒绝采样（Difficulty-Aware Rejection Sampling, DARS）方法，生成高质量的数学问题解决数据集。该数据集的核心研究问题是如何在数学推理任务中有效处理高难度问题，从而提升模型的整体性能。DART-Math-Hard数据集包含了约585,000个数学问答对，这些数据通过对MATH和GSM8K训练集的查询集应用DARS-Prop2Diff方法构建而成。该数据集的创建不仅推动了数学推理领域的发展，还为其他相关领域的研究提供了宝贵的资源。

当前挑战

DART-Math-Hard数据集在构建过程中面临的主要挑战是如何在高难度查询中生成足够多的正确响应。传统的拒绝采样方法往往偏向于简单查询，导致高难度查询的响应不足。为解决这一问题，研究团队提出了两种策略：Uniform和Prop2Diff。Uniform策略通过设定每个查询的正确响应数量来平衡数据集，而Prop2Diff策略则根据查询的难度分数来调整响应数量，从而在高难度查询中引入更多的正确响应。此外，数据集的构建还涉及到如何确保生成的数据集在不同数学推理基准上的表现一致性，以及如何在保持数据集开放性的同时，确保其高质量和实用性。

常用场景

经典使用场景

在数学推理领域，hkust-nlp/dart-math-hard数据集以其独特的难度感知拒绝采样（DARS）方法，成为训练和评估数学问题解决模型的经典资源。该数据集通过精心设计的Prop2Diff策略，显著提升了对复杂数学问题的响应质量，使其在多个数学推理基准测试中达到了最先进的性能。

衍生相关工作

基于hkust-nlp/dart-math-hard数据集，研究者们开发了多种先进的数学推理模型，如DART-Math-DSMath-7B和Prop2Diff模型，这些模型在多个公开的数学推理基准测试中表现优异。此外，该数据集还启发了其他领域的难度感知数据生成方法的研究，推动了跨学科的数据科学创新。

数据集最近研究