hkust-nlp/dart-math-hard
收藏Hugging Face2024-08-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-hard
下载链接
链接失效反馈资源简介:
DART-Math-Hard数据集是一个用于数学推理的指令调优数据集,包含约585k个数学问答对样本。该数据集通过应用DARS-Prop2Diff方法从MATH和GSK8K训练集中构建,特别强调对困难查询的偏置,与传统的拒绝采样方法相反。DART-Math-Hard在许多具有挑战性的数学推理基准测试中达到了最先进的性能。
DART-Math-Hard数据集是一个用于数学推理的指令调优数据集,包含约585k个数学问答对样本。该数据集通过应用DARS-Prop2Diff方法从MATH和GSK8K训练集中构建,特别强调对困难查询的偏置,与传统的拒绝采样方法相反。DART-Math-Hard在许多具有挑战性的数学推理基准测试中达到了最先进的性能。
提供机构:
hkust-nlp
原始信息汇总
数据集概述
基本信息
- 数据集名称: DART-Math-Hard
- 数据集大小: 约585,000个数学问答对样本
- 数据集用途: 用于数学问题解决的难度感知拒绝调优
- 数据集特点: 引入对困难查询的故意偏差,与传统的拒绝采样相反
数据结构
- 特征:
- query: 字符串类型
- response: 字符串类型
数据划分
- 训练集:
- 样本数量: 585,392
- 数据大小: 931,749,217字节
许可证
- 许可证类型: MIT
任务类别
- 任务类别: 问答
语言
- 语言: 英语
标签
- 标签: 合成、数学
数据集构建方法
- 构建方法: 使用
DARS-Prop2Diff策略,从MATH和GSK8K训练集中选择查询集构建
性能比较
- 性能表现: 通常略优于
DART-Math-Uniform(约1%绝对值)
与其他数学指令调优数据集的比较
- 数据集比较:
- DART-Math-Hard: 约585K样本,使用DeepSeekMath-7B-RL,开源
- DART-Math-Uniform: 约591K样本,使用DeepSeekMath-7B-RL,开源
- 其他数据集: 如WizardMath, MetaMathQA等,样本数量和合成代理各异,开源情况不一
数据集构建策略
- DARS策略:
- Uniform: 每个查询累积$k_u$正确响应
- Prop2Diff: 每个查询的正确响应数量与其难度分数成比例,偏向更困难的查询
AI搜集汇总
数据集介绍

构建方式
该数据集通过应用难度感知拒绝采样(DARS-Prop2Diff)方法,从MATH和GSM8K训练集中提取查询集,构建了约585,000个数学问答对。此方法旨在增加困难查询的响应数量,与传统的拒绝采样方法形成对比,后者往往偏向于简单查询。通过这种方式,数据集实现了对困难数学问题的针对性增强,从而在多个挑战性数学推理基准上达到了最先进的表现。
特点
DART-Math-Hard数据集的一个显著特点是其对困难查询的刻意偏重,这与大多数现有数据集偏向简单查询的倾向形成鲜明对比。此外,该数据集是开源的,且数据效率极高,适用于数学推理的指令调优。其构建方法确保了数据集在处理复杂数学问题时的有效性和针对性,使其在数学推理任务中表现卓越。
使用方法
该数据集主要用于文本生成任务,特别是数学问题的解答生成。用户可以通过HuggingFace的Datasets库加载该数据集,并利用其提供的训练集进行模型训练。数据集的特征包括查询(query)和响应(response),均为字符串类型。通过使用该数据集,研究人员和开发者可以提升模型在处理复杂数学问题上的表现,尤其是在需要高难度推理能力的场景中。
背景与挑战
背景概述
DART-Math-Hard数据集由香港科技大学的NLP研究团队创建,旨在通过难度感知拒绝采样(Difficulty-Aware Rejection Sampling, DARS)方法,生成高质量的数学问题解决数据集。该数据集的核心研究问题是如何在数学推理任务中有效处理高难度问题,从而提升模型的整体性能。DART-Math-Hard数据集包含了约585,000个数学问答对,这些数据通过对MATH和GSM8K训练集的查询集应用DARS-Prop2Diff方法构建而成。该数据集的创建不仅推动了数学推理领域的发展,还为其他相关领域的研究提供了宝贵的资源。
当前挑战
DART-Math-Hard数据集在构建过程中面临的主要挑战是如何在高难度查询中生成足够多的正确响应。传统的拒绝采样方法往往偏向于简单查询,导致高难度查询的响应不足。为解决这一问题,研究团队提出了两种策略:Uniform和Prop2Diff。Uniform策略通过设定每个查询的正确响应数量来平衡数据集,而Prop2Diff策略则根据查询的难度分数来调整响应数量,从而在高难度查询中引入更多的正确响应。此外,数据集的构建还涉及到如何确保生成的数据集在不同数学推理基准上的表现一致性,以及如何在保持数据集开放性的同时,确保其高质量和实用性。
常用场景
经典使用场景
在数学推理领域,hkust-nlp/dart-math-hard数据集以其独特的难度感知拒绝采样(DARS)方法,成为训练和评估数学问题解决模型的经典资源。该数据集通过精心设计的Prop2Diff策略,显著提升了对复杂数学问题的响应质量,使其在多个数学推理基准测试中达到了最先进的性能。
衍生相关工作
基于hkust-nlp/dart-math-hard数据集,研究者们开发了多种先进的数学推理模型,如DART-Math-DSMath-7B和Prop2Diff模型,这些模型在多个公开的数学推理基准测试中表现优异。此外,该数据集还启发了其他领域的难度感知数据生成方法的研究,推动了跨学科的数据科学创新。
数据集最近研究
最新研究方向
在数学推理领域,DART-Math-Hard数据集的最新研究方向主要集中在通过难度感知拒绝采样(Difficulty-Aware Rejection Sampling, DARS)方法来提升模型对复杂数学问题的解决能力。该数据集通过引入Prop2Diff策略,有针对性地增加对困难问题的响应数量,从而在多个挑战性数学推理基准上实现了最先进的性能。研究者们正在探索如何进一步优化这一方法,以提高模型在处理高难度数学问题时的准确性和效率,同时也在研究如何将这一方法应用于其他复杂任务中,以推动人工智能在处理复杂逻辑问题方面的能力。
以上内容由AI搜集并总结生成



