MU-NLPC/Calc-gsm8k
收藏Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MU-NLPC/Calc-gsm8k
下载链接
链接失效反馈官方服务:
资源简介:
Calc-gsm8k数据集是基于gsm8k数据集的一个实例,转换为易于解析的HTML-like语言,包含三种标签:gadget、output和result。该数据集旨在训练能够使用外部工具(如计算器)增强推理能力的模型。数据集的构建过程包括解析原始答案、使用sympy计算器评估算术表达式,并导出为HTML-like格式。数据集包含默认和原始分割两种配置,默认配置中从原始训练集中随机抽取200个样本作为验证集。数据集的相关工作包括Calc-X和Calcformers项目,旨在训练能够使用计算器的模型。数据集遵循MIT许可证,并提供了引用信息。
提供机构:
MU-NLPC
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 大小分类: 1K<n<10K
- 任务分类: 文本生成, 问答
数据集配置
-
默认配置:
- 特征:
- id: 字符串
- question: 字符串
- chain: 字符串
- result: 字符串
- result_float: 浮点数
- 分割:
- 训练: 7273个样本, 5373420.477987422字节
- 验证: 200个样本, 147763.5220125786字节
- 测试: 1319个样本, 993169字节
- 下载大小: 3140154字节
- 数据集大小: 6514353.0字节
- 特征:
-
原始分割配置:
- 特征:
- id: 字符串
- question: 字符串
- chain: 字符串
- result: 字符串
- result_float: 浮点数
- 分割:
- 训练: 7473个样本, 5521184字节
- 测试: 1319个样本, 993169字节
- 下载大小: 0字节
- 数据集大小: 6514353字节
- 特征:
数据集加载
-
默认配置: python datasets.load_dataset("MU-NLPC/Calc-gsm8k")
-
原始分割配置: python datasets.load_dataset("MU-NLPC/Calc-gsm8k", "original-splits")



