tinyBenchmarks/tinyGSM8k

Name: tinyBenchmarks/tinyGSM8k
Creator: tinyBenchmarks
Published: 2024-05-25 10:40:44
License: 暂无描述

Hugging Face2024-05-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tinyBenchmarks/tinyGSM8k

下载链接

链接失效反馈

官方服务：

资源简介：

tinyGSM8K数据集是GSM8K数据集的精简版本，包含从原始数据集中选出的100个数据点。该数据集旨在帮助用户高效评估大型语言模型（LLM）的性能，同时减少数据集的大小，节省计算资源，同时保留GSM8K评估的核心要素。数据集包含问题、答案和格式化输入等特征，并提供了使用lm-eval harness和自定义管道进行模型评估的详细指南。

提供机构：

tinyBenchmarks

原始信息汇总

tinyGSM8K 数据集概述

数据集信息

配置名称: main
特征:
- question: 字符串类型
- answer: 字符串类型
- input_formatted: 字符串类型
分割:
- train: 27470490 字节, 7473 个样本
- test: 357642 字节, 100 个样本
下载大小: 5523427 字节
数据集大小: 27828132 字节

配置

配置名称: main
数据文件:
- train: main/train-*
- test: main/test-*

数据集属性

标注创建者: 众包
语言创建者: 众包
语言: 英语
多语言性: 单语
大小类别: n<1K
源数据集: gsm8k
任务类别: 文本生成
任务ID: 无
名称: tinyGSM8K
标签: 数学应用题

数据集描述

tinyGSM8K 是 GSM8K 数据集的一个精简版本，包含从原始数据集中选取的 100 个数据点。该数据集旨在使用较小的数据集大小高效评估大型语言模型（LLM）的性能，同时保持 GSM8K 评估的核心要素。

特点

紧凑数据集: 仅包含 100 个数据点，提供了一种快速高效的方式来评估 LLM 的性能，同时保持原始 GSM8K 数据集的本质。
兼容性: tinyGSM8K 兼容使用 lm evaluation harness 进行评估，也可以集成到自定义管道中。

模型评估

使用 lm-eval harness: 用户可以使用 lm evaluation harness (v0.4.1 或更高版本) 直接运行评估工具，通过 --tasks=tinyGSM8k 参数进行评估。
不使用 lm-eval harness: 可以通过下载数据并集成到其他管道中进行评估。

引用

plaintext @article{polo2024tinybenchmarks, title={tinyBenchmarks: evaluating LLMs with fewer examples}, author={Felipe Maia Polo and Lucas Weber and Leshem Choshen and Yuekai Sun and Gongjun Xu and Mikhail Yurochkin}, year={2024}, eprint={2402.14992}, archivePrefix={arXiv}, primaryClass={cs.CL} } @article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} }

搜集汇总

数据集介绍

背景与挑战

背景概述

tinyGSM8K是GSM8K数据集的精简版本，包含100个英语数学文字问题示例，旨在高效评估大型语言模型的数学推理能力。该数据集通过减少数据点数量来节省计算资源，同时保留原始数据集的本质，适用于快速基准测试和性能估计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集