five

hkust-nlp/dart-math-pool-math-query-info

收藏
Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/dart-math-pool-math-query-info
下载链接
链接失效反馈
官方服务:
资源简介:
DART-Math数据集是一系列用于数学问题指令调优的开源数据集,包含DART-Math-Hard和DART-Math-Uniform等子数据集。这些数据集通过不同的采样策略(如DARS-Uniform和DARS-Prop2Diff)构建,旨在提高模型在数学推理任务中的表现。DART-Math-Hard包含约585k个数学问答对样本,通过DARS-Prop2Diff策略从MATH和GSK8K训练集中构建,并在多个具有挑战性的数学推理基准测试中取得了最先进的性能。DART-Math-Uniform包含约591k个样本,通过DARS-Uniform策略构建。这些数据集通过增加对困难查询的响应数量,旨在平衡或偏向于困难查询,从而提高模型的能力。

DART-Math数据集是一系列用于数学问题指令调优的开源数据集,包含DART-Math-Hard和DART-Math-Uniform等子数据集。这些数据集通过不同的采样策略(如DARS-Uniform和DARS-Prop2Diff)构建,旨在提高模型在数学推理任务中的表现。DART-Math-Hard包含约585k个数学问答对样本,通过DARS-Prop2Diff策略从MATH和GSK8K训练集中构建,并在多个具有挑战性的数学推理基准测试中取得了最先进的性能。DART-Math-Uniform包含约591k个样本,通过DARS-Uniform策略构建。这些数据集通过增加对困难查询的响应数量,旨在平衡或偏向于困难查询,从而提高模型的能力。
提供机构:
hkust-nlp
原始信息汇总

数据集概述

数据集特征

  • query_id: 字符串类型
  • level: 整数类型(int64)
  • domain: 字符串类型
  • n_samples_list: 整数序列(int64)
  • n_corrects_list: 整数序列(int64)
  • tot_n_samples: 整数类型(int64)
  • tot_n_corrects: 整数类型(int64)
  • pass_rate: 浮点数类型(float64)
  • pass_rate_bernoulli_std: 浮点数类型(float64)

数据集分割

  • train:
    • 字节数: 23702730
    • 示例数: 7500

数据集大小

  • 下载大小: 1205819字节
  • 数据集大小: 23702730字节

配置

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作