hkust-nlp/dart-math-pool-math-query-info
收藏Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-pool-math-query-info
下载链接
链接失效反馈官方服务:
资源简介:
DART-Math数据集是一系列用于数学问题指令调优的开源数据集,包含DART-Math-Hard和DART-Math-Uniform等子数据集。这些数据集通过不同的采样策略(如DARS-Uniform和DARS-Prop2Diff)构建,旨在提高模型在数学推理任务中的表现。DART-Math-Hard包含约585k个数学问答对样本,通过DARS-Prop2Diff策略从MATH和GSK8K训练集中构建,并在多个具有挑战性的数学推理基准测试中取得了最先进的性能。DART-Math-Uniform包含约591k个样本,通过DARS-Uniform策略构建。这些数据集通过增加对困难查询的响应数量,旨在平衡或偏向于困难查询,从而提高模型的能力。
DART-Math数据集是一系列用于数学问题指令调优的开源数据集,包含DART-Math-Hard和DART-Math-Uniform等子数据集。这些数据集通过不同的采样策略(如DARS-Uniform和DARS-Prop2Diff)构建,旨在提高模型在数学推理任务中的表现。DART-Math-Hard包含约585k个数学问答对样本,通过DARS-Prop2Diff策略从MATH和GSK8K训练集中构建,并在多个具有挑战性的数学推理基准测试中取得了最先进的性能。DART-Math-Uniform包含约591k个样本,通过DARS-Uniform策略构建。这些数据集通过增加对困难查询的响应数量,旨在平衡或偏向于困难查询,从而提高模型的能力。
提供机构:
hkust-nlp
原始信息汇总
数据集概述
数据集特征
- query_id: 字符串类型
- level: 整数类型(int64)
- domain: 字符串类型
- n_samples_list: 整数序列(int64)
- n_corrects_list: 整数序列(int64)
- tot_n_samples: 整数类型(int64)
- tot_n_corrects: 整数类型(int64)
- pass_rate: 浮点数类型(float64)
- pass_rate_bernoulli_std: 浮点数类型(float64)
数据集分割
- train:
- 字节数: 23702730
- 示例数: 7500
数据集大小
- 下载大小: 1205819字节
- 数据集大小: 23702730字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*



