lm-eval-details
收藏数据集概述
数据集描述
该数据集是在评估模型 meta-llama/Llama-3.2-3B 的过程中自动创建的。数据集由0个配置组成,每个配置对应一个评估任务。
数据集结构
- 创建来源: 数据集从2次运行中创建。每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
- 分割: 每次运行对应一个分割,"train" 分割始终指向最新的结果。
- 额外配置: 有一个名为 "results" 的额外配置,存储所有运行的聚合结果。
数据加载示例
python from datasets import load_dataset data = load_dataset( "mmosbach/lm-eval-details", name="meta-llama__Llama-3.2-3B__gsm8k", split="latest" )
最新结果
以下是 2024-12-13T12-39-39.290134 运行的最新结果:
python { "all": { "gsm8k": { "alias": "gsm8k", "exact_match,strict-match": 0.0, "exact_match_stderr,strict-match": 0.0, "exact_match,flexible-extract": 0.10841546626231995, "exact_match_stderr,flexible-extract": 0.008563852506627495 } }, "gsm8k": { "alias": "gsm8k", "exact_match,strict-match": 0.0, "exact_match_stderr,strict-match": 0.0, "exact_match,flexible-extract": 0.10841546626231995, "exact_match_stderr,flexible-extract": 0.008563852506627495 } }




