five

hkust-nlp/dart-math-pool-math

收藏
Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-pool-math
下载链接
链接失效反馈
官方服务:
资源简介:
DART-Math数据集是一个用于数学问题推理和解决的开源数据集,包含多个特征如查询、响应、答案正确性等。数据集通过Difficulty-Aware Rejection Sampling (DARS)方法构建,旨在增加对困难查询的响应。数据集分为DART-Math-Uniform和DART-Math-Hard两种,分别采用不同的采样策略。DART-Math-Uniform包含约591k个样本,采用均匀采样策略;DART-Math-Hard包含约585k个样本,采用偏向困难查询的采样策略。该数据集在多个数学推理基准测试中表现出色,并且是开源的。

DART-Math数据集是一个用于数学问题推理和解决的开源数据集,包含多个特征如查询、响应、答案正确性等。数据集通过Difficulty-Aware Rejection Sampling (DARS)方法构建,旨在增加对困难查询的响应。数据集分为DART-Math-Uniform和DART-Math-Hard两种,分别采用不同的采样策略。DART-Math-Uniform包含约591k个样本,采用均匀采样策略;DART-Math-Hard包含约585k个样本,采用偏向困难查询的采样策略。该数据集在多个数学推理基准测试中表现出色,并且是开源的。
提供机构:
hkust-nlp
原始信息汇总

数据集概述

数据集特征

  • query: 字符串类型
  • query4test: 布尔类型
  • query_src_agent: 字符串类型
  • query_src_method: 字符串类型
  • domain: 字符串类型
  • stage: 字符串类型
  • gt_ans: 字符串类型
  • query_metadata: 结构类型,包含:
    • level: 整数类型(int64)
  • resp: 字符串类型
  • resp_src_agent: 字符串类型
  • resp_src_method: 字符串类型
  • ans_correct: 布尔类型
  • ration_type: 字符串类型
  • proc_correct_prob: 空值类型
  • resp_metadata: 结构类型,包含:
    • maxlen: 字符串类型
    • task_idx: 字符串类型
    • temperature: 字符串类型
    • top_p: 字符串类型
  • ans: 字符串类型
  • query_id: 字符串类型
  • resp_id: 字符串类型

数据集划分

  • train:
    • 数据量: 2441929242 字节
    • 示例数量: 1615233

数据集大小

  • 下载大小: 965044406 字节
  • 数据集总大小: 2441929242 字节

配置

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作