hkust-nlp/dart-math-pool-gsm8k
收藏Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-pool-gsm8k
下载链接
链接失效反馈官方服务:
资源简介:
DART-Math数据集是从GSM8K训练集的查询集中合成的数据池,包含所有答案正确的样本和其他元数据。该数据集是用于数学推理的最先进、数据高效的开源指令调优数据集,特别是DART-Math-Hard数据集通过DARS-Prop2Dif方法构建,引入了对困难查询的偏向,以提升模型在挑战性数学推理基准上的表现。
DART-Math数据集是从GSM8K训练集的查询集中合成的数据池,包含所有答案正确的样本和其他元数据。该数据集是用于数学推理的最先进、数据高效的开源指令调优数据集,特别是DART-Math-Hard数据集通过DARS-Prop2Dif方法构建,引入了对困难查询的偏向,以提升模型在挑战性数学推理基准上的表现。
提供机构:
hkust-nlp
原始信息汇总
数据集概述
数据集特征
- query:字符串类型
- query4test:布尔类型
- query_src_agent:字符串类型
- query_src_method:字符串类型
- domain:字符串类型
- stage:字符串类型
- gt_ans:字符串类型
- query_metadata:结构类型,包含以下字段:
- n_step:整数类型(int64)
- resp:字符串类型
- resp_src_agent:字符串类型
- resp_src_method:字符串类型
- ans_correct:布尔类型
- ration_type:字符串类型
- proc_correct_prob:空值类型
- resp_metadata:结构类型,包含以下字段:
- maxlen:字符串类型
- task_idx:字符串类型
- temperature:字符串类型
- top_p:字符串类型
- ans:字符串类型
- query_id:字符串类型
- resp_id:字符串类型
数据集分割
- train:
- num_bytes:3482830244
- num_examples:2738984
数据集大小
- download_size:1081777653
- dataset_size:3482830244
配置
- config_name:default
- data_files:
- split:train
- path:data/train-*



