five

open-llm-leaderboard-old/details_wang7776__Mistral-7B-Instruct-v0.2-sparsity-10

收藏
Hugging Face2023-12-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_wang7776__Mistral-7B-Instruct-v0.2-sparsity-10
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型wang7776/Mistral-7B-Instruct-v0.2-sparsity-10时自动创建的,评估在Open LLM Leaderboard上进行。数据集由63个配置组成,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行可以在每个配置中找到,运行的时间戳作为分割名称。train分割始终指向最新结果。此外,results配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型wang7776/Mistral-7B-Instruct-v0.2-sparsity-10时自动创建的,评估在Open LLM Leaderboard上进行。数据集由63个配置组成,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行可以在每个配置中找到,运行的时间戳作为分割名称。train分割始终指向最新结果。此外,results配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集摘要

该数据集是在对模型 wang7776/Mistral-7B-Instruct-v0.2-sparsity-10 进行评估运行时自动创建的,用于 Open LLM Leaderboard

数据集组成

  • 数据集包含 63 个配置,每个配置对应一个评估任务。
  • 数据集从 1 次运行中创建,每次运行可以在每个配置中找到特定的拆分,拆分名称使用运行的时间戳。
  • "train" 拆分始终指向最新的结果。
  • 额外的 "results" 配置存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_wang7776__Mistral-7B-Instruct-v0.2-sparsity-10", "harness_winogrande_5", split="train")

最新结果

这些是最新结果(来自 2023-12-29T10:14:42.345113 运行)的示例: python { "all": { "acc": 0.6083963504187536, "acc_stderr": 0.03315719455502607, "acc_norm": 0.6130761878704873, "acc_norm_stderr": 0.03383113741295469, "mc1": 0.5250917992656059, "mc1_stderr": 0.01748144680410401, "mc2": 0.6792682730434055, "mc2_stderr": 0.015227284567168547 }, "harness|arc:challenge|25": { "acc": 0.5870307167235495, "acc_stderr": 0.014388344935398326, "acc_norm": 0.628839590443686, "acc_norm_stderr": 0.014117971901142824 }, "harness|hellaswag|10": { "acc": 0.6677952599083847, "acc_stderr": 0.004700413824942563, "acc_norm": 0.8485361481776539, "acc_norm_stderr": 0.0035776774950640844 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.33, "acc_stderr": 0.04725815626252605, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252605 }, # 其他任务的结果... }

配置详情

  • harness_arc_challenge_25

    • 拆分:2023_12_29T10_14_42.345113, latest
    • 路径:**/details_harness|arc:challenge|25_2023-12-29T10-14-42.345113.parquet
  • harness_gsm8k_5

    • 拆分:2023_12_29T10_14_42.345113, latest
    • 路径:**/details_harness|gsm8k|5_2023-12-29T10-14-42.345113.parquet
  • harness_hellaswag_10

    • 拆分:2023_12_29T10_14_42.345113, latest
    • 路径:**/details_harness|hellaswag|10_2023-12-29T10-14-42.345113.parquet
  • harness_hendrycksTest_5

    • 拆分:2023_12_29T10_14_42.345113, latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-12-29T10-14-42.345113.parquet

以上是根据提供的数据集详情页面内容提炼的关键信息,结构化地展示了数据集的组成、加载示例、最新结果和配置详情。

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,该数据集作为开放大语言模型排行榜的衍生成果,其构建过程体现了自动化与标准化的特点。数据集源于对特定稀疏化模型wang7776/Mistral-7B-Instruct-v0.2-sparsity-10在排行榜框架下的系统性评估运行。评估过程覆盖了包括ARC挑战赛、HellaSwag、MMLU以及TruthfulQA在内的63项多样化评测任务,每项任务对应一个独立的配置单元。评估运行的时间戳被用作数据切分的标识,确保了每次评估结果的独立性与可追溯性,而“train”切分则始终指向最新的评估结果,形成了一个动态更新的数据集合。
特点
该数据集的核心特征在于其作为模型评估元数据的结构化呈现。数据集不仅包含了模型在各项任务上的详细性能指标,如准确率及其标准误差,还通过“results”配置聚合了整体评估结果,为模型能力的横向对比提供了量化基础。数据以Parquet格式存储,兼顾了存储效率与查询性能。其多配置、多切分的架构设计,使得研究者能够灵活地访问特定任务或特定时间点的评估细节,从而深入分析模型在不同知识领域与推理任务上的表现差异,为模型优化与能力诊断提供了丰富的数据支撑。
使用方法
为利用该数据集进行模型评估分析,研究者可通过Hugging Face的`datasets`库便捷加载。通过指定数据集名称、目标配置(如`harness_winogrande_5`)以及切分(通常为`train`以获取最新结果),即可将相应的评估细节加载为结构化数据对象。例如,使用`load_dataset`函数并传入相应参数,便可获取模型在Winogrande任务上的具体答题记录与性能数据。这种方法使得后续的统计分析、可视化或与其他模型评估结果的对比研究变得直接而高效,有力地支持了开放、可复现的大语言模型评测生态。
背景与挑战
背景概述
在大型语言模型(LLM)迅猛发展的浪潮中,模型性能的标准化评估成为推动领域进步的关键。HuggingFace团队于2023年推出的Open LLM Leaderboard,旨在构建一个透明、可复现的基准测试平台,以系统化地衡量不同LLM在多样化任务上的能力。数据集“open-llm-leaderboard-old/details_wang7776__Mistral-7B-Instruct-v0.2-sparsity-10”正是该平台下的产物,它自动记录了特定稀疏化模型在ARC挑战赛、HellaSwag、MMLU以及TruthfulQA等多个权威评测集上的详细表现。这一数据集不仅为模型间的横向对比提供了坚实的数据支撑,更深化了社区对模型稀疏化技术影响的理解,促进了高效模型架构的探索。
当前挑战
该数据集所应对的核心挑战在于如何全面、公正地评估大型语言模型的综合能力与可靠性。具体而言,评测需覆盖从常识推理、专业学科知识到数学计算与真实性核查的广泛领域,这要求基准任务具备高度的多样性与复杂性。在构建过程中,挑战同样显著:自动化评测流程需确保数据采集的精确性与一致性,同时处理不同任务在格式、度量标准上的异构性;此外,随着模型迭代与评测集的更新,如何动态维护数据版本、整合历史与最新结果,并保证数据结构的清晰可读,亦是工程实现上的重要难题。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集作为Open LLM Leaderboard的评估结果记录,其经典使用场景在于为研究人员提供模型性能的标准化基准。通过涵盖ARC挑战赛、HellaSwag、MMLU等多个权威评测任务,数据集能够全面衡量模型在常识推理、语言理解和专业知识等方面的能力,为模型间的横向对比奠定数据基础。
实际应用
在实际应用层面,该数据集为工业界选择适配模型提供了关键决策依据。企业可根据具体领域需求,通过数据集中各专业任务的性能表现,筛选出在医疗、法律、编程等垂直场景中表现优异的大模型。同时,该数据集也为模型优化提供了明确的改进方向,助力开发团队针对性地增强模型薄弱环节。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于大模型能力图谱构建与评估方法论创新。研究者利用其多维度评估数据,开发了模型能力诊断框架与可视化分析工具。同时,基于该数据集揭示的模型缺陷,催生了针对知识缺失、推理偏差等问题的专项改进研究,推动了稀疏化、知识增强等模型优化技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作