bigscience/evaluation-results
收藏Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigscience/evaluation-results
下载链接
链接失效反馈官方服务:
资源简介:
BigScience BLOOM评估结果数据集,包含BLOOM模型的评估结果和原始预测。数据集大小介于100M到1B之间,用于其他任务类别。数据集结构包括不同评估框架下的文件组织,如bigsciencelmevalharness、lmevalharness和codeeval。
提供机构:
bigscience
原始信息汇总
数据集概述
数据集名称
- 名称: BigScience BLOOM Evaluation Results
数据集描述
- 内容: 包含BLOOM模型的评估结果和原始预测数据。
数据集使用方法
- 加载数据:
-
通过Python代码加载数据集: python from datasets import load_dataset ds = load_dataset("bigscience/evaluation-results", "bloom")
-
或通过克隆仓库从本地加载数据: python !git clone https://huggingface.co/datasets/bigscience/evaluation-results ds = load_dataset("evaluation-results", "bloom")
-
数据集结构
- 结构:
-
对于
bigsciencelmevalharness,lmevalharness&codeeval评估框架,结构为:model_name > evaluation_framework > checkpoint_type > dataset_name > data
-
评估程序
- 创建文件:
bigsciencelmevalharness文件创建参考:- https://github.com/bigscience-workshop/Megatron-DeepSpeed/pull/291
- https://github.com/bigscience-workshop/lm-evaluation-harness
lmevalharness文件创建参考:- https://github.com/bigscience-workshop/Megatron-DeepSpeed
- https://github.com/EleutherAI/lm-evaluation-harness
codeeval文件创建参考:- https://github.com/loubnabnl/bloom-code-evaluation
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



