open-llm-leaderboard-old/details_anas-awadalla__mpt-1b-redpajama-200b

Name: open-llm-leaderboard-old/details_anas-awadalla__mpt-1b-redpajama-200b
Creator: open-llm-leaderboard-old
Published: 2023-12-03 16:07:03
License: 暂无描述

Hugging Face2023-12-03 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_anas-awadalla__mpt-1b-redpajama-200b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估anas-awadalla/mpt-1b-redpajama-200b模型时自动创建的，包含64个配置，每个配置对应一个评估任务。数据集由4次运行创建，每次运行都有特定的分割，分割名称使用运行的时间戳。还有一个名为results的配置，存储所有运行的聚合结果，用于计算和显示在Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在对模型 anas-awadalla/mpt-1b-redpajama-200b 进行评估运行期间自动创建的。数据集包含64个配置，每个配置对应一个评估任务。数据集从4次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

数据集结构

数据集包含以下配置：

harness_arc_challenge_25
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|arc:challenge|25_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|arc:challenge|25_2023-09-14T22-39-00.593372.parquet
harness_drop_3
- 分割：2023_11_04T22_34_26.464302
- 路径：**/details_harness|drop|3_2023-11-04T22-34-26.464302.parquet
- 分割：2023_11_06T15_58_19.397762
- 路径：**/details_harness|drop|3_2023-11-06T15-58-19.397762.parquet
- 分割：latest
- 路径：**/details_harness|drop|3_2023-11-06T15-58-19.397762.parquet
harness_gsm8k_5
- 分割：2023_11_04T22_34_26.464302
- 路径：**/details_harness|gsm8k|5_2023-11-04T22-34-26.464302.parquet
- 分割：2023_11_06T15_58_19.397762
- 路径：**/details_harness|gsm8k|5_2023-11-06T15-58-19.397762.parquet
- 分割：2023_12_03T16_06_56.054386
- 路径：**/details_harness|gsm8k|5_2023-12-03T16-06-56.054386.parquet
- 分割：latest
- 路径：**/details_harness|gsm8k|5_2023-12-03T16-06-56.054386.parquet
harness_hellaswag_10
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hellaswag|10_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hellaswag|10_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_5
- 分割：2023_09_14T22_39_00.593372
- 路径：多个文件路径，例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：多个文件路径，例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_abstract_algebra_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_anatomy_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-anatomy|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-anatomy|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_astronomy_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-astronomy|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-astronomy|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_business_ethics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-business_ethics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-business_ethics|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_clinical_knowledge_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_biology_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_biology|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_biology|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_chemistry_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_chemistry|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_chemistry|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_computer_science_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_computer_science|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_computer_science|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_mathematics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_mathematics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_mathematics|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_medicine_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_medicine|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_medicine|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_college_physics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-college_physics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-college_physics|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_computer_security_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-computer_security|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-computer_security|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_conceptual_physics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-conceptual_physics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-conceptual_physics|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_econometrics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-econometrics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-econometrics|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_electrical_engineering_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-electrical_engineering|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-electrical_engineering|5_2023-09-14T22-39-00.593372.parquet
harness_hendrycksTest_elementary_mathematics_5
- 分割：2023_09_14T22_39_00.593372
- 路径：**/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-14T22-39-00.593372.parquet
- 分割：latest
- 路径：**/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-14T22-39-00.593372.parquet

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，Open LLM Leaderboard 扮演着基准测试平台的关键角色。该数据集是模型 anas-awadalla/mpt-1b-redpajama-200b 在 Leaderboard 上进行评估时自动生成的副产品，其构建过程紧密围绕评测流程展开。数据集由 64 个配置组成，每个配置对应一项被评估的任务，如 ARC Challenge、GSM8K 等。这些配置源自四次独立的评测运行，每次运行的结果以时间戳命名的 split 形式存储于各配置中，而名为“train”的 split 则始终指向最新一次运行的结果。此外，一个名为“results”的独立配置汇聚了所有运行的综合指标，用于在 Leaderboard 上计算和展示聚合性能。

使用方法

使用该数据集时，研究者可通过 Hugging Face Datasets 库便捷加载。例如，调用 load_dataset 函数并指定数据集名称及目标配置（如“harness_gsm8k_5”），即可获取特定任务的评估细节。通过设置 split 参数为“train”可访问最新结果，而使用时间戳命名的 split（如“2023_12_03T16_06_56.054386”）则可回溯历史评估数据。此外，加载“results”配置能够直接获得所有任务的聚合指标，适用于快速概览模型整体性能。这种灵活的数据访问方式，使得该数据集成为深入分析模型评测结果的理想工具。

背景与挑战

背景概述

在大规模语言模型（LLM）性能评估领域，如何系统性地衡量模型在多样化任务上的表现始终是核心议题。由Hugging Face团队主导的Open LLM Leaderboard项目，旨在为开源社区提供一个标准化、透明化的模型评估基准。该数据集正是为评估anas-awadalla/mpt-1b-redpajama-200b模型而自动生成的详细评测记录，创建于2023年，主要研究人员包括Clémentine Fourrier等。该数据集覆盖了ARC挑战、DROP、GSM8K、HellaSwag及MMLU等多项经典基准测试，通过多次运行记录模型的推理结果与聚合指标，为研究者提供了细粒度的性能分析工具。其影响力体现在推动了LLM评测流程的自动化与可复现性，成为社区衡量模型能力的重要参考。

当前挑战

该数据集所解决的领域问题在于，LLM评测常因任务多样、评测标准不一而难以横向比较，而Open LLM Leaderboard通过统一框架实现了多任务标准化评估。然而，构建过程中面临多项挑战：一是评测任务配置复杂，需为每个基准任务定义独立的采样策略与评估参数，如GSM8K的5-shot设置；二是运行日志管理繁重，多次运行产生的时间戳分片（如2023-09-14至2023-12-03）需合理组织，以确保最新结果可追溯；三是数据存储与加载的效率问题，采用Parquet格式虽优化了读写性能，但跨配置的聚合计算仍需处理大量分片文件；四是模型性能波动带来的不确定性，如GSM8K上准确率为0.0的结果提示了模型在数学推理任务上的局限性，评测结果需谨慎解读。

常用场景

经典使用场景

该数据集是Open LLM Leaderboard对anas-awadalla/mpt-1b-redpajama-200b模型进行自动化评估的产物，涵盖了ARC挑战赛、DROP、GSM8K、HellaSwag以及涵盖57个学科的大规模多任务语言理解基准（MMLU）等多样化任务。其经典使用场景在于为研究者提供细粒度的模型性能评测数据，通过加载各任务的配置和分片，可复现模型在推理、常识理解、数学解题及知识问答等维度的表现，从而系统性地评估语言模型的综合能力。

解决学术问题

该数据集有效回应了大型语言模型评估标准不统一、结果难以复现的学术困境。通过标准化评测框架，它解决了跨模型比较时任务设置与随机性带来的偏差问题，使得不同模型在相同条件下的性能对比成为可能。其意义在于推动了模型评估的透明化和可重复性，为社区提供了可靠的基准参照，进而引导研究者关注模型在复杂推理与多领域知识上的真实短板。

实际应用

在实际应用中，该数据集可服务于模型选型与优化流程。工程师可利用其详细的任务级结果，识别特定模型在数学推理（GSM8K）或常识问答（HellaSwag）等场景的薄弱环节，进而指导数据增强或微调策略。同时，它也为AI产品的安全部署提供了依据，通过评估模型在MMLU等广泛知识领域的表现，预估其在教育、医疗咨询等垂直行业落地时的可靠性。

数据集最近研究