bigscience/evaluation-results

Name: bigscience/evaluation-results
Creator: bigscience
Published: 2023-05-28 00:13:53
License: 暂无描述

Hugging Face2023-05-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigscience/evaluation-results

下载链接

链接失效反馈

官方服务：

资源简介：

BigScience BLOOM评估结果数据集，包含BLOOM模型的评估结果和原始预测。数据集大小介于100M到1B之间，用于其他任务类别。数据集结构包括不同评估框架下的文件组织，如bigsciencelmevalharness、lmevalharness和codeeval。

提供机构：

bigscience

原始信息汇总

数据集概述

加载数据:
- 通过Python代码加载数据集: python from datasets import load_dataset ds = load_dataset("bigscience/evaluation-results", "bloom")
- 或通过克隆仓库从本地加载数据: python !git clone https://huggingface.co/datasets/bigscience/evaluation-results ds = load_dataset("evaluation-results", "bloom")

结构:
- 对于bigsciencelmevalharness, lmevalharness & codeeval评估框架，结构为:
  
  model_name > evaluation_framework > checkpoint_type > dataset_name > data

创建文件:
- bigsciencelmevalharness文件创建参考:
  - https://github.com/bigscience-workshop/Megatron-DeepSpeed/pull/291
  - https://github.com/bigscience-workshop/lm-evaluation-harness
- lmevalharness文件创建参考:
  - https://github.com/bigscience-workshop/Megatron-DeepSpeed
  - https://github.com/EleutherAI/lm-evaluation-harness
- codeeval文件创建参考:
  - https://github.com/loubnabnl/bloom-code-evaluation

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集