OALL/details_Ali-C137__Q2AW1M-0001
收藏Hugging Face2024-06-22 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/OALL/details_Ali-C137__Q2AW1M-0001
下载链接
链接失效反馈官方服务:
资源简介:
数据集Ali-C137/Q2AW1M-0001是在模型评估过程中自动创建的,包含136个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为一个特定的分割存储在配置中,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置存储了所有运行的聚合结果。README还提供了加载数据集的具体代码示例,并展示了最新的评估结果。
数据集Ali-C137/Q2AW1M-0001是在模型评估过程中自动创建的,包含136个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为一个特定的分割存储在配置中,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置存储了所有运行的聚合结果。README还提供了加载数据集的具体代码示例,并展示了最新的评估结果。
提供机构:
OALL
原始信息汇总
数据集概述
数据集基本信息
- 名称: Evaluation run of Ali-C137/Q2AW1M-0001
- 来源: 自动创建于模型评估运行期间
- 配置数量: 136
- 创建次数: 1次
数据集结构
- 配置: 每个配置对应一个评估任务
- 分割: 每个运行结果作为一个特定的分割,分割名称使用运行的时间戳
- 训练分割: 始终指向最新的结果
- 结果配置: 存储所有运行的聚合结果
数据加载示例
python from datasets import load_dataset data = load_dataset("OALL/details_Ali-C137__Q2AW1M-0001", "lighteval_xstory_cloze_ar_0", split="train")
最新结果
- 时间戳: 2024-06-22T06:45:55.765702
- 结果: 包含多个任务的准确率和标准误差
示例结果
python { "all": { "acc_norm": 0.40038464570000093, "acc_norm_stderr": 0.03769635229295191, "acc": 0.5949702183984117, "acc_stderr": 0.012632887218751386 }, "community|acva:Algeria|0": { "acc_norm": 0.5230769230769231, "acc_norm_stderr": 0.0358596530894741 }, ... }



