five

tinyBenchmarks/tinyWinogrande

收藏
Hugging Face2024-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tinyBenchmarks/tinyWinogrande
下载链接
链接失效反馈
官方服务:
资源简介:
tinyWinogrande是Winogrande数据集的精简版本,包含100个数据点,旨在高效评估大型语言模型的性能,同时节省计算资源。该数据集兼容lm evaluation harness,并可以集成到自定义管道中进行模型评估。
提供机构:
tinyBenchmarks
原始信息汇总

tinyWinogrande 数据集概述

数据集信息

  • 配置名称: winogrande_xl
  • 特征:
    • sentence: 字符串类型
    • option1: 字符串类型
    • option2: 字符串类型
    • answer: 字符串类型
    • input_formatted: 字符串类型
  • 分割:
    • train: 40398个样本,29034018字节
    • test: 1767个样本,1273510字节
    • validation: 100个样本,74654字节
  • 下载大小: 5558675字节
  • 数据集大小: 30382182字节

数据集配置

  • 配置名称: winogrande_xl
  • 数据文件:
    • train: winogrande_xl/train-*
    • test: winogrande_xl/test-*
    • validation: winogrande_xl/validation-*

语言

  • 英语 (en)

多语言性

  • 单语种 (monolingual)

源数据集

  • Winogrande

语言标识

  • en-US

数据集大小分类

  • n<1K

数据集描述

tinyWinogrande 是 Winogrande 数据集的一个精简版本,包含100个数据点,旨在通过减少数据集大小来高效评估大型语言模型(LLM)的性能,同时保持 Winogrande 评估的核心要素。

特点

  • 紧凑数据集: 仅包含100个数据点,提供了一种快速高效的方式来评估 LLM 的性能。
  • 兼容性: 可与 lm evaluation harness 一起使用,也可集成到自定义管道中。

模型评估

  • 使用 lm-eval harness: 用户可以通过运行 --tasks=tinyWinogrande 来评估新模型。
  • 不使用 lm-eval harness: 可以通过下载数据并使用 tinyBenchmarks 库进行评估。

引用

@article{polo2024tinybenchmarks, title={tinyBenchmarks: evaluating LLMs with fewer examples}, author={Felipe Maia Polo and Lucas Weber and Leshem Choshen and Yuekai Sun and Gongjun Xu and Mikhail Yurochkin}, year={2024}, eprint={2402.14992}, archivePrefix={arXiv}, primaryClass={cs.CL} } @InProceedings{ai2:winogrande, title = {WinoGrande: An Adversarial Winograd Schema Challenge at Scale}, authors={Keisuke, Sakaguchi and Ronan, Le Bras and Chandra, Bhagavatula and Yejin, Choi}, year={2019} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作