five

open-llm-leaderboard-old/details_anas-awadalla__mpt-1b-redpajama-200b

收藏
Hugging Face2023-12-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_anas-awadalla__mpt-1b-redpajama-200b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估anas-awadalla/mpt-1b-redpajama-200b模型时自动创建的,包含64个配置,每个配置对应一个评估任务。数据集由4次运行创建,每次运行都有特定的分割,分割名称使用运行的时间戳。还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。

该数据集是在评估anas-awadalla/mpt-1b-redpajama-200b模型时自动创建的,包含64个配置,每个配置对应一个评估任务。数据集由4次运行创建,每次运行都有特定的分割,分割名称使用运行的时间戳。还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

该数据集是在对模型 anas-awadalla/mpt-1b-redpajama-200b 进行评估运行期间自动创建的。数据集包含64个配置,每个配置对应一个评估任务。数据集从4次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

数据集结构

数据集包含以下配置:

  • harness_arc_challenge_25

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|arc:challenge|25_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|arc:challenge|25_2023-09-14T22-39-00.593372.parquet
  • harness_drop_3

    • 分割:2023_11_04T22_34_26.464302
    • 路径:**/details_harness|drop|3_2023-11-04T22-34-26.464302.parquet
    • 分割:2023_11_06T15_58_19.397762
    • 路径:**/details_harness|drop|3_2023-11-06T15-58-19.397762.parquet
    • 分割:latest
    • 路径:**/details_harness|drop|3_2023-11-06T15-58-19.397762.parquet
  • harness_gsm8k_5

    • 分割:2023_11_04T22_34_26.464302
    • 路径:**/details_harness|gsm8k|5_2023-11-04T22-34-26.464302.parquet
    • 分割:2023_11_06T15_58_19.397762
    • 路径:**/details_harness|gsm8k|5_2023-11-06T15-58-19.397762.parquet
    • 分割:2023_12_03T16_06_56.054386
    • 路径:**/details_harness|gsm8k|5_2023-12-03T16-06-56.054386.parquet
    • 分割:latest
    • 路径:**/details_harness|gsm8k|5_2023-12-03T16-06-56.054386.parquet
  • harness_hellaswag_10

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hellaswag|10_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hellaswag|10_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:多个文件路径,例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:多个文件路径,例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_abstract_algebra_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_anatomy_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_astronomy_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_business_ethics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_clinical_knowledge_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_biology_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_chemistry_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_computer_science_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_mathematics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_medicine_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_college_physics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_computer_security_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_conceptual_physics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_econometrics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_electrical_engineering_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-electrical_engineering|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-electrical_engineering|5_2023-09-14T22-39-00.593372.parquet
  • harness_hendrycksTest_elementary_mathematics_5

    • 分割:2023_09_14T22_39_00.593372
    • 路径:**/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-14T22-39-00.593372.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-14T22-39-00.593372.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评测领域,Open LLM Leaderboard 扮演着基准测试平台的关键角色。该数据集是模型 anas-awadalla/mpt-1b-redpajama-200b 在 Leaderboard 上进行评估时自动生成的副产品,其构建过程紧密围绕评测流程展开。数据集由 64 个配置组成,每个配置对应一项被评估的任务,如 ARC Challenge、GSM8K 等。这些配置源自四次独立的评测运行,每次运行的结果以时间戳命名的 split 形式存储于各配置中,而名为“train”的 split 则始终指向最新一次运行的结果。此外,一个名为“results”的独立配置汇聚了所有运行的综合指标,用于在 Leaderboard 上计算和展示聚合性能。
使用方法
使用该数据集时,研究者可通过 Hugging Face Datasets 库便捷加载。例如,调用 load_dataset 函数并指定数据集名称及目标配置(如“harness_gsm8k_5”),即可获取特定任务的评估细节。通过设置 split 参数为“train”可访问最新结果,而使用时间戳命名的 split(如“2023_12_03T16_06_56.054386”)则可回溯历史评估数据。此外,加载“results”配置能够直接获得所有任务的聚合指标,适用于快速概览模型整体性能。这种灵活的数据访问方式,使得该数据集成为深入分析模型评测结果的理想工具。
背景与挑战
背景概述
在大规模语言模型(LLM)性能评估领域,如何系统性地衡量模型在多样化任务上的表现始终是核心议题。由Hugging Face团队主导的Open LLM Leaderboard项目,旨在为开源社区提供一个标准化、透明化的模型评估基准。该数据集正是为评估anas-awadalla/mpt-1b-redpajama-200b模型而自动生成的详细评测记录,创建于2023年,主要研究人员包括Clémentine Fourrier等。该数据集覆盖了ARC挑战、DROP、GSM8K、HellaSwag及MMLU等多项经典基准测试,通过多次运行记录模型的推理结果与聚合指标,为研究者提供了细粒度的性能分析工具。其影响力体现在推动了LLM评测流程的自动化与可复现性,成为社区衡量模型能力的重要参考。
当前挑战
该数据集所解决的领域问题在于,LLM评测常因任务多样、评测标准不一而难以横向比较,而Open LLM Leaderboard通过统一框架实现了多任务标准化评估。然而,构建过程中面临多项挑战:一是评测任务配置复杂,需为每个基准任务定义独立的采样策略与评估参数,如GSM8K的5-shot设置;二是运行日志管理繁重,多次运行产生的时间戳分片(如2023-09-14至2023-12-03)需合理组织,以确保最新结果可追溯;三是数据存储与加载的效率问题,采用Parquet格式虽优化了读写性能,但跨配置的聚合计算仍需处理大量分片文件;四是模型性能波动带来的不确定性,如GSM8K上准确率为0.0的结果提示了模型在数学推理任务上的局限性,评测结果需谨慎解读。
常用场景
经典使用场景
该数据集是Open LLM Leaderboard对anas-awadalla/mpt-1b-redpajama-200b模型进行自动化评估的产物,涵盖了ARC挑战赛、DROP、GSM8K、HellaSwag以及涵盖57个学科的大规模多任务语言理解基准(MMLU)等多样化任务。其经典使用场景在于为研究者提供细粒度的模型性能评测数据,通过加载各任务的配置和分片,可复现模型在推理、常识理解、数学解题及知识问答等维度的表现,从而系统性地评估语言模型的综合能力。
解决学术问题
该数据集有效回应了大型语言模型评估标准不统一、结果难以复现的学术困境。通过标准化评测框架,它解决了跨模型比较时任务设置与随机性带来的偏差问题,使得不同模型在相同条件下的性能对比成为可能。其意义在于推动了模型评估的透明化和可重复性,为社区提供了可靠的基准参照,进而引导研究者关注模型在复杂推理与多领域知识上的真实短板。
实际应用
在实际应用中,该数据集可服务于模型选型与优化流程。工程师可利用其详细的任务级结果,识别特定模型在数学推理(GSM8K)或常识问答(HellaSwag)等场景的薄弱环节,进而指导数据增强或微调策略。同时,它也为AI产品的安全部署提供了依据,通过评估模型在MMLU等广泛知识领域的表现,预估其在教育、医疗咨询等垂直行业落地时的可靠性。
数据集最近研究
最新研究方向
随着大语言模型(LLM)在自然语言处理领域的迅猛发展,模型性能的标准化评估成为推动技术迭代的关键环节。Open LLM Leaderboard作为业界公认的基准评估平台,其衍生出的细节评估数据集(如open-llm-leaderboard/details_anas-awadalla__mpt-1b-redpajama-200b)正引领着模型评测的前沿方向。该数据集聚焦于对MPT-1B等小型化模型在多样化任务(如ARC挑战、GSM8K数学推理、HellaSwag常识推理及涵盖57个学科的MMLU测试)上的系统性评估,尤其关注模型在零样本或少样本场景下的泛化能力。近期研究热点集中于通过此类细粒度评测数据,揭示模型在推理、知识存储与迁移学习中的短板,进而推动参数高效微调(PEFT)与稀疏激活架构的优化。这一研究方向不仅为模型选择提供了量化依据,更对构建可信、可复现的AI评估体系具有里程碑意义,加速了轻量级模型在边缘计算与实时应用中的落地进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作