OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2

Name: OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2
Creator: OALL
Published: 2024-05-31 16:50:38
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型`kevinpro/Hydra-LLaMA3-8B-v0.2`的评估运行过程中自动生成的，包含136个配置，每个配置对应一个评估任务。数据集由1次运行生成，每次运行的结果作为一个特定的split存储在配置中，split的名称使用运行的时间戳。此外，数据集还包含一个名为`results`的配置，用于存储所有运行的聚合结果。

提供机构：

OALL

原始信息汇总

数据集概述

数据集名称

Evaluation run of kevinpro/Hydra-LLaMA3-8B-v0.2

数据集创建

自动创建：该数据集是在评估模型kevinpro/Hydra-LLaMA3-8B-v0.2的过程中自动生成的。

数据集组成

配置数量：包含136个配置，每个配置对应一个评估任务。
数据来源：数据集由1次运行创建，每次运行作为一个特定的分割，分割名称使用运行的时间戳。
分割详情："train"分割始终指向最新的结果。
额外配置："results"配置存储了所有运行的聚合结果。

数据集加载示例

python from datasets import load_dataset data = load_dataset("OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2", "lighteval_xstory_cloze_ar_0", split="train")

数据集详细配置

配置详情：每个配置包含多个任务的评估结果，具体包括任务名称、标准化准确率（acc_norm）和标准化准确率的标准误差（acc_norm_stderr）等指标。
任务范围：涵盖了从社区到专业领域的多个任务，如阿拉伯文化、历史、语言、医学等多个方面。

数据集使用

加载数据：通过load_dataset函数加载特定配置和分割的数据。
分析结果：分析每个任务的评估结果，以评估模型的性能。

该数据集为评估模型性能提供了详细的数据支持，适用于研究和开发过程中的性能分析和优化。

5,000+

优质数据集

54 个

任务类型

进入经典数据集