five

bigscience/evaluation-results

收藏
Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigscience/evaluation-results
下载链接
链接失效反馈
官方服务:
资源简介:
BigScience BLOOM评估结果数据集,包含BLOOM模型的评估结果和原始预测。数据集大小介于100M到1B之间,用于其他任务类别。数据集结构包括不同评估框架下的文件组织,如bigsciencelmevalharness、lmevalharness和codeeval。
提供机构:
bigscience
原始信息汇总

数据集概述

数据集名称

  • 名称: BigScience BLOOM Evaluation Results

数据集描述

  • 内容: 包含BLOOM模型的评估结果和原始预测数据。

数据集使用方法

  • 加载数据:
    • 通过Python代码加载数据集: python from datasets import load_dataset ds = load_dataset("bigscience/evaluation-results", "bloom")

    • 或通过克隆仓库从本地加载数据: python !git clone https://huggingface.co/datasets/bigscience/evaluation-results ds = load_dataset("evaluation-results", "bloom")

数据集结构

  • 结构:
    • 对于bigsciencelmevalharness, lmevalharness & codeeval评估框架,结构为:

      model_name > evaluation_framework > checkpoint_type > dataset_name > data

评估程序

  • 创建文件:
    • bigsciencelmevalharness文件创建参考:
      • https://github.com/bigscience-workshop/Megatron-DeepSpeed/pull/291
      • https://github.com/bigscience-workshop/lm-evaluation-harness
    • lmevalharness文件创建参考:
      • https://github.com/bigscience-workshop/Megatron-DeepSpeed
      • https://github.com/EleutherAI/lm-evaluation-harness
    • codeeval文件创建参考:
      • https://github.com/loubnabnl/bloom-code-evaluation
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作