tinyBenchmarks/tinyGSM8k
收藏tinyGSM8K 数据集概述
数据集信息
- 配置名称: main
- 特征:
question: 字符串类型answer: 字符串类型input_formatted: 字符串类型
- 分割:
train: 27470490 字节, 7473 个样本test: 357642 字节, 100 个样本
- 下载大小: 5523427 字节
- 数据集大小: 27828132 字节
配置
- 配置名称: main
- 数据文件:
train: main/train-*test: main/test-*
数据集属性
- 标注创建者: 众包
- 语言创建者: 众包
- 语言: 英语
- 多语言性: 单语
- 大小类别: n<1K
- 源数据集: gsm8k
- 任务类别: 文本生成
- 任务ID: 无
- 名称: tinyGSM8K
- 标签: 数学应用题
数据集描述
tinyGSM8K 是 GSM8K 数据集的一个精简版本,包含从原始数据集中选取的 100 个数据点。该数据集旨在使用较小的数据集大小高效评估大型语言模型(LLM)的性能,同时保持 GSM8K 评估的核心要素。
特点
- 紧凑数据集: 仅包含 100 个数据点,提供了一种快速高效的方式来评估 LLM 的性能,同时保持原始 GSM8K 数据集的本质。
- 兼容性: tinyGSM8K 兼容使用 lm evaluation harness 进行评估,也可以集成到自定义管道中。
模型评估
- 使用 lm-eval harness: 用户可以使用 lm evaluation harness (v0.4.1 或更高版本) 直接运行评估工具,通过
--tasks=tinyGSM8k参数进行评估。 - 不使用 lm-eval harness: 可以通过下载数据并集成到其他管道中进行评估。
引用
plaintext @article{polo2024tinybenchmarks, title={tinyBenchmarks: evaluating LLMs with fewer examples}, author={Felipe Maia Polo and Lucas Weber and Leshem Choshen and Yuekai Sun and Gongjun Xu and Mikhail Yurochkin}, year={2024}, eprint={2402.14992}, archivePrefix={arXiv}, primaryClass={cs.CL} } @article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} }




