OALL/details_airev-ai__Jais-Inception-7b-V0.1
收藏Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/OALL/details_airev-ai__Jais-Inception-7b-V0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型`airev-ai/Jais-Inception-7b-V0.1`的评估运行过程中自动创建的。数据集由136个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都作为一个特定的分割存储在配置中,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置存储了所有运行的聚合结果。
The dataset is automatically created during the evaluation run of the model airev-ai/Jais-Inception-7b-V0.1. It consists of 136 configurations, each corresponding to one of the evaluated tasks. The dataset has been generated from 1 run, with each run represented as a specific split named using the timestamp of the run. The train split always points to the latest results. An additional configuration results stores all the aggregated results of the run. The dataset includes detailed results from various tasks, each with accuracy metrics and standard errors.
提供机构:
OALL
原始信息汇总
数据集概述
数据集基本信息
- 名称: Evaluation run of airev-ai/Jais-Inception-7b-V0.1
- 创建方式: 自动创建,用于评估模型 airev-ai/Jais-Inception-7b-V0.1
- 配置数量: 136
- 创建次数: 1次
数据集结构
- 配置: 每个配置对应一个评估任务
- 分割: 每个配置包含多个分割,分割名称基于运行时间戳
- 训练分割: 指向最新结果
- 结果配置: 存储所有聚合结果
数据加载示例
python from datasets import load_dataset data = load_dataset("OALL/details_airev-ai__Jais-Inception-7b-V0.1", "lighteval_xstory_cloze_ar_0", split="train")
最新结果
- 时间戳: 2024-07-04T00:42:50.433931
- 结果: 包含多个任务的评估结果,具体结果如下:
- 总体结果:
acc_norm: 0.4556242914564125acc_norm_stderr: 0.03814722279416842acc: 0.6366644606221046acc_stderr: 0.01237715330661327
- 具体任务结果:
community|acva:Algeria|0:acc_norm: 0.5282051282051282acc_norm_stderr: 0.035840746749208334
community|acva:Ancient_Egypt|0:acc_norm: 0.0761904761904762acc_norm_stderr: 0.014971893787809665
community|acva:Arab_Empire|0:acc_norm: 0.30943396226415093acc_norm_stderr: 0.028450154794118627
- 其他任务结果详见数据集详情页面。
- 总体结果:



