five

open-llm-leaderboard/details_mistral-community__Mixtral-8x22B-v0.1

收藏
Hugging Face2024-04-11 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_mistral-community__Mixtral-8x22B-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型mistral-community/Mixtral-8x22B-v0.1时自动创建的,评估在Open LLM Leaderboard上进行。数据集由63个配置组成,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行可以在每个配置中找到,运行的时间戳作为分割名称。"train"分割始终指向最新的结果。此外,"results"配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。

This dataset was automatically created during the evaluation of the model mistral-community/Mixtral-8x22B-v0.1, which was conducted on the Open LLM Leaderboard. The dataset comprises 63 configurations, each corresponding to an individual evaluation task. This dataset is built upon one single run, whose results can be found under every configuration, and the timestamp of this run serves as the split name. The "train" split always points to the most recent evaluation results. Additionally, the "results" configuration stores the aggregated results across all runs, and is utilized to compute and display the aggregate metrics on the Open LLM Leaderboard.
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

数据集名称

  • pretty_name: Evaluation run of mistral-community/Mixtral-8x22B-v0.1

数据集描述

数据集组成

  • 配置数量: 63个配置,每个配置对应一个评估任务。
  • 创建来源: 数据集由1次运行创建,每次运行作为一个特定的分割,分割名称使用运行的时间戳命名。
  • 特殊配置: 存在一个名为"results"的额外配置,存储所有运行的聚合结果,用于计算和显示聚合指标。

数据集加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_mistral-community__Mixtral-8x22B-v0.1", "harness_winogrande_5", split="train")

最新结果

  • 结果来源: 最新结果来自2024-04-11T17:46:29.011968
  • 结果内容: 包含多个任务的评估结果,如准确率(acc)、标准误差(acc_stderr)等。

数据集配置详情

  • 配置示例:
    • config_name: harness_arc_challenge_25
    • data_files:
      • split: 2024_04_11T17_46_29.011968
      • path: /details_harness|arc:challenge|25_2024-04-11T17-46-29.011968.parquet
      • split: latest
      • path: /details_harness|arc:challenge|25_2024-04-11T17-46-29.011968.parquet

此数据集为模型评估提供了详细的数据支持,适用于研究和开发工作。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作