OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型`kevinpro/Hydra-LLaMA3-8B-v0.2`的评估运行过程中自动生成的,包含136个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为一个特定的split存储在配置中,split的名称使用运行的时间戳。此外,数据集还包含一个名为`results`的配置,用于存储所有运行的聚合结果。
该数据集是在模型`kevinpro/Hydra-LLaMA3-8B-v0.2`的评估运行过程中自动生成的,包含136个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为一个特定的split存储在配置中,split的名称使用运行的时间戳。此外,数据集还包含一个名为`results`的配置,用于存储所有运行的聚合结果。
提供机构:
OALL
原始信息汇总
数据集概述
数据集名称
- Evaluation run of kevinpro/Hydra-LLaMA3-8B-v0.2
数据集创建
- 自动创建:该数据集是在评估模型kevinpro/Hydra-LLaMA3-8B-v0.2的过程中自动生成的。
数据集组成
- 配置数量:包含136个配置,每个配置对应一个评估任务。
- 数据来源:数据集由1次运行创建,每次运行作为一个特定的分割,分割名称使用运行的时间戳。
- 分割详情:"train"分割始终指向最新的结果。
- 额外配置:"results"配置存储了所有运行的聚合结果。
数据集加载示例
python from datasets import load_dataset data = load_dataset("OALL/details_kevinpro__Hydra-LLaMA3-8B-v0.2", "lighteval_xstory_cloze_ar_0", split="train")
最新结果
- 结果链接:latest results from run 2024-05-31T16:47:51.942325
- 结果内容:包含多个任务的评估结果,每个任务的结果可在"results"配置和相应的"latest"分割中找到。
数据集详细配置
- 配置详情:每个配置包含多个任务的评估结果,具体包括任务名称、标准化准确率(acc_norm)和标准化准确率的标准误差(acc_norm_stderr)等指标。
- 任务范围:涵盖了从社区到专业领域的多个任务,如阿拉伯文化、历史、语言、医学等多个方面。
数据集使用
- 加载数据:通过
load_dataset函数加载特定配置和分割的数据。 - 分析结果:分析每个任务的评估结果,以评估模型的性能。
该数据集为评估模型性能提供了详细的数据支持,适用于研究和开发过程中的性能分析和优化。



