hkust-nlp/dart-math-pool-math
收藏Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-pool-math
下载链接
链接失效反馈官方服务:
资源简介:
DART-Math数据集是一个用于数学问题推理和解决的开源数据集,包含多个特征如查询、响应、答案正确性等。数据集通过Difficulty-Aware Rejection Sampling (DARS)方法构建,旨在增加对困难查询的响应。数据集分为DART-Math-Uniform和DART-Math-Hard两种,分别采用不同的采样策略。DART-Math-Uniform包含约591k个样本,采用均匀采样策略;DART-Math-Hard包含约585k个样本,采用偏向困难查询的采样策略。该数据集在多个数学推理基准测试中表现出色,并且是开源的。
DART-Math数据集是一个用于数学问题推理和解决的开源数据集,包含多个特征如查询、响应、答案正确性等。数据集通过Difficulty-Aware Rejection Sampling (DARS)方法构建,旨在增加对困难查询的响应。数据集分为DART-Math-Uniform和DART-Math-Hard两种,分别采用不同的采样策略。DART-Math-Uniform包含约591k个样本,采用均匀采样策略;DART-Math-Hard包含约585k个样本,采用偏向困难查询的采样策略。该数据集在多个数学推理基准测试中表现出色,并且是开源的。
提供机构:
hkust-nlp
原始信息汇总
数据集概述
数据集特征
- query: 字符串类型
- query4test: 布尔类型
- query_src_agent: 字符串类型
- query_src_method: 字符串类型
- domain: 字符串类型
- stage: 字符串类型
- gt_ans: 字符串类型
- query_metadata: 结构类型,包含:
- level: 整数类型(int64)
- resp: 字符串类型
- resp_src_agent: 字符串类型
- resp_src_method: 字符串类型
- ans_correct: 布尔类型
- ration_type: 字符串类型
- proc_correct_prob: 空值类型
- resp_metadata: 结构类型,包含:
- maxlen: 字符串类型
- task_idx: 字符串类型
- temperature: 字符串类型
- top_p: 字符串类型
- ans: 字符串类型
- query_id: 字符串类型
- resp_id: 字符串类型
数据集划分
- train:
- 数据量: 2441929242 字节
- 示例数量: 1615233
数据集大小
- 下载大小: 965044406 字节
- 数据集总大小: 2441929242 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*



