vrt-baseline
收藏Hugging Face2024-08-02 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/hkust-nlp/vrt-baseline
下载链接
链接失效反馈官方服务:
资源简介:
VRT-Baseline数据集是一个用于训练数学问题解决基准模型的合成数据集。它包含0.59百万个示例,通过DeepSeekMath-7B-RL的普通拒绝采样生成。数据集包含'查询'和'响应'两个特征,均为字符串类型。它分为一个训练集,包含590,601个示例,并采用MIT许可证。该数据集属于文本生成任务,标记为合成和数学相关。主要语言为英语,大小类别为100K<n<1M个示例。
提供机构:
HKUST NLP Group
创建时间:
2024-08-02
原始信息汇总
数据集概述
数据集信息
特征
- 名称: query
- 数据类型: string
- 名称: response
- 数据类型: string
数据分割
- 名称: train
- 字节数: 475633098
- 样本数: 590601
下载和数据大小
- 下载大小: 104156576
- 数据集大小: 475633098
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:
许可证
- 许可证: MIT
任务类别
- 任务类别: text-generation
语言
- 语言: en
标签
- 标签: synthetic, mathematics
易读名称
- 易读名称: VRT-Baseline
大小类别
- 大小类别: 100K<n<1M
数据集描述
DART-Math 数据集
- 描述:
DART-Math数据集是用于数学推理的最先进和数据高效的开源指令调优数据集。
DART-Math-Hard 数据集
- 描述:
DART-Math-Hard包含约585k数学QA对样本,通过应用DARS-Prop2Diff方法从MATH和GSK8K训练集中构建,实现了许多挑战性数学推理基准的SOTA。该数据集引入了对困难查询的故意偏差,与传统的拒绝采样相反。
DART-Math-Uniform 数据集
- 描述:
DART-Math-Uniform包含约591k样本,通过应用DARS-Uniform方法构建。其性能通常略优于DART-Math-Hard,但不一定总是如此。
数据集构建
DARS - Difficulty-Aware Rejection Sampling
- 描述: 我们提出了Difficulty-Aware Rejection Sampling (
DARS),以收集更多困难查询的响应。具体策略包括:- Uniform: 每个查询累积$k_u$个正确响应。
- Prop2Diff: 每个查询的正确响应数与其难度分数成比例。
引用
latex @article{tong2024dartmath, title={DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving}, author={Yuxuan Tong and Xiwen Zhang and Rui Wang and Ruidong Wu and Junxian He}, year={2024}, eprint={2407.13690}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13690}, }
搜集汇总
数据集介绍

构建方式
vrt-baseline数据集的构建采用了基于DeepSeekMath-7B-RL模型的普通拒绝采样方法。该方法通过合成与DART数据集相同规模的59万条样本,确保了数据集的多样性和广泛性。具体而言,普通拒绝采样通过随机选择样本并拒绝不符合条件的样本,从而生成一个均衡的数学问题解决数据集。
特点
vrt-baseline数据集的特点在于其规模适中,包含59万条样本,涵盖了广泛的数学问题。该数据集通过普通拒绝采样方法生成,确保了样本的多样性和均衡性。此外,数据集中的每个样本都包含一个查询和一个响应,适用于文本生成任务,尤其是在数学推理领域。
使用方法
vrt-baseline数据集主要用于训练和评估数学问题解决的基线模型。用户可以通过HuggingFace平台下载该数据集,并使用其进行模型训练和性能评估。数据集中的查询和响应可以用于生成模型的输入和输出,帮助研究人员评估模型在数学推理任务中的表现。此外,该数据集还可用于与其他数学推理数据集进行对比研究,以验证不同方法的有效性。
背景与挑战
背景概述
VRT-Baseline数据集是由香港科技大学NLP团队于2024年发布的,旨在为数学问题求解任务提供基准模型训练数据。该数据集基于DeepSeekMath-7B-RL模型,通过简单的拒绝采样方法生成了约59万条数学问答对。作为DART-Math研究的一部分,VRT-Baseline数据集在数学推理领域具有重要影响力,尤其是在对比不同数据合成策略的效果时,为研究者提供了重要的参考基准。该数据集的发布推动了数学推理模型的优化,尤其是在处理复杂数学问题时,展示了数据合成策略对模型性能的显著影响。
当前挑战
VRT-Baseline数据集在构建过程中面临的主要挑战包括如何有效平衡数据集中简单与复杂问题的比例。传统的拒绝采样方法倾向于生成大量简单问题的答案,而忽略了复杂问题的多样性,这可能导致模型在处理高难度数学问题时表现不佳。此外,数据合成的效率和质量也是一个关键挑战,尤其是在使用大型语言模型生成数据时,如何确保生成答案的准确性和多样性。这些挑战不仅影响了数据集的构建过程,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
VRT-Baseline数据集主要用于数学问题求解领域,特别是在训练基线模型时,该数据集通过合成590K个数学问题与答案对,为模型提供了丰富的训练样本。其经典使用场景包括在数学推理任务中,作为对比实验的基准数据集,帮助研究人员评估不同模型在数学问题求解上的性能。
衍生相关工作
VRT-Baseline数据集衍生了许多相关研究,特别是在数学推理模型的优化方面。例如,基于该数据集提出的DART-Math方法,进一步引入了难度感知的拒绝采样策略,显著提升了模型在复杂数学问题上的表现。此外,该数据集还启发了其他领域的研究,如自然语言处理中的任务难度感知数据合成方法。
数据集最近研究
最新研究方向
近年来,随着大语言模型在数学推理任务中的广泛应用,数据集的质量和多样性成为提升模型性能的关键因素。VRT-Baseline数据集作为DART-Math研究中的基准数据集,通过简单的拒绝采样方法生成了59万条数学问答对,为模型训练提供了基础支持。然而,随着研究的深入,研究者发现传统拒绝采样方法存在对简单问题的偏好,导致模型在处理复杂数学问题时表现不佳。为此,DART-Math提出了难度感知拒绝采样(DARS)方法,通过均匀采样和难度比例采样两种策略,显著提升了模型在复杂数学问题上的表现。特别是DART-Math-Hard数据集,通过偏向于困难问题的采样策略,在多个数学推理基准测试中达到了最先进的性能。这一研究方向不仅推动了数学推理模型的进步,也为其他领域的指令调优数据集设计提供了新的思路。
以上内容由遇见数据集搜集并总结生成



