five

MU-NLPC/Calc-gsm8k

收藏
Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MU-NLPC/Calc-gsm8k
下载链接
链接失效反馈
官方服务:
资源简介:
Calc-gsm8k数据集是基于gsm8k数据集的一个实例,转换为易于解析的HTML-like语言,包含三种标签:gadget、output和result。该数据集旨在训练能够使用外部工具(如计算器)增强推理能力的模型。数据集的构建过程包括解析原始答案、使用sympy计算器评估算术表达式,并导出为HTML-like格式。数据集包含默认和原始分割两种配置,默认配置中从原始训练集中随机抽取200个样本作为验证集。数据集的相关工作包括Calc-X和Calcformers项目,旨在训练能够使用计算器的模型。数据集遵循MIT许可证,并提供了引用信息。
提供机构:
MU-NLPC
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 大小分类: 1K<n<10K
  • 任务分类: 文本生成, 问答

数据集配置

  • 默认配置:

    • 特征:
      • id: 字符串
      • question: 字符串
      • chain: 字符串
      • result: 字符串
      • result_float: 浮点数
    • 分割:
      • 训练: 7273个样本, 5373420.477987422字节
      • 验证: 200个样本, 147763.5220125786字节
      • 测试: 1319个样本, 993169字节
    • 下载大小: 3140154字节
    • 数据集大小: 6514353.0字节
  • 原始分割配置:

    • 特征:
      • id: 字符串
      • question: 字符串
      • chain: 字符串
      • result: 字符串
      • result_float: 浮点数
    • 分割:
      • 训练: 7473个样本, 5521184字节
      • 测试: 1319个样本, 993169字节
    • 下载大小: 0字节
    • 数据集大小: 6514353字节

数据集加载

  • 默认配置: python datasets.load_dataset("MU-NLPC/Calc-gsm8k")

  • 原始分割配置: python datasets.load_dataset("MU-NLPC/Calc-gsm8k", "original-splits")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作