five

open-llm-leaderboard-old/details_maldv__SHRDFU-7b-delta

收藏
Hugging Face2024-04-02 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_maldv__SHRDFU-7b-delta
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型maldv/SHRDFU-7b-delta时自动生成的,主要用于Open LLM Leaderboard的评估任务。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型maldv/SHRDFU-7b-delta时自动生成的,主要用于Open LLM Leaderboard的评估任务。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

该数据集是在对模型 maldv/SHRDFU-7b-delta 进行评估运行期间自动创建的。数据集包含 63 个配置,每个配置对应一个评估任务。数据集从 1 次运行中创建,每次运行的详细信息可以在每个配置中找到,以运行的时间戳命名的特定分片形式存储。"train" 分片始终指向最新的结果。

数据集结构

配置

  • harness_arc_challenge_25

    • 分片:2024_04_02T14_39_49.359260latest
    • 文件路径:**/details_harness|arc:challenge|25_2024-04-02T14-39-49.359260.parquet
  • harness_gsm8k_5

    • 分片:2024_04_02T14_39_49.359260latest
    • 文件路径:**/details_harness|gsm8k|5_2024-04-02T14-39-49.359260.parquet
  • harness_hellaswag_10

    • 分片:2024_04_02T14_39_49.359260latest
    • 文件路径:**/details_harness|hellaswag|10_2024-04-02T14-39-49.359260.parquet
  • harness_hendrycksTest_5

    • 分片:2024_04_02T14_39_49.359260latest
    • 文件路径:多个文件,包括但不限于:
      • **/details_harness|hendrycksTest-abstract_algebra|5_2024-04-02T14-39-49.359260.parquet
      • **/details_harness|hendrycksTest-anatomy|5_2024-04-02T14-39-49.359260.parquet
      • **/details_harness|hendrycksTest-astronomy|5_2024-04-02T14-39-49.359260.parquet
      • 以及其他相关文件

结果配置

  • results
    • 存储所有聚合结果的配置,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

最新结果

以下是来自 2024-04-02T14:39:49.359260 运行的最新结果:

python { "all": { "acc": 0.5526683296268241, "acc_stderr": 0.03382338459632063, "acc_norm": 0.5628676574626827, "acc_norm_stderr": 0.03474100538562841, "mc1": 0.3072215422276622, "mc1_stderr": 0.01615020132132301, "mc2": 0.46737035293726564, "mc2_stderr": 0.015755558447744955 }, "harness|arc:challenge|25": { "acc": 0.5281569965870307, "acc_stderr": 0.014588204105102205, "acc_norm": 0.5418088737201365, "acc_norm_stderr": 0.014560220308714698 }, "harness|hellaswag|10": { "acc": 0.5800637323242382, "acc_stderr": 0.004925394995490124, "acc_norm": 0.775542720573591, "acc_norm_stderr": 0.004163717220873734 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, # 其他任务的结果... }

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_maldv__SHRDFU-7b-delta", "harness_winogrande_5", split="train")

搜集汇总
数据集介绍
main_image_url
构建方式
在大规模语言模型迅猛发展的时代背景下,模型性能的客观评估成为推动技术进步的关键一环。该数据集是Open LLM Leaderboard对maldv/SHRDFU-7b-delta模型执行评估任务时自动生成的副产品,其构建过程紧密围绕标准化评测流程展开。数据集由63个配置组成,每个配置对应一项被评估的特定任务,例如ARC挑战赛、HellaSwag、GSM8K及涵盖多学科知识的MMLU测试集。所有评估结果均源自单次运行,每次运行的数据以时间戳为标识,作为独立分割存储在相应配置中,而“train”分割则始终指向最新一次运行的评估结果。此外,一个名为“results”的额外配置汇总了全部运行的聚合指标,为排行榜上综合分数的计算与展示提供了数据基础。
特点
该数据集在结构设计上展现出高度的层次化与时效性特征。其核心优势在于将复杂的多任务评估结果以标准化配置进行组织,每个配置独立存储特定任务下的详细评估数据,包括准确率及其标准误差等关键指标。数据集的“results”配置尤为突出,它整合了所有任务的评估结果,提供了如全局准确率、标准化准确率以及多项选择题的mc1和mc2分数等综合性度量。这种设计不仅便于研究者快速获取模型在单一任务上的表现细节,也支持从宏观层面审视模型的整体能力。同时,通过时间戳分割与“latest”分割的并存,数据集忠实记录了模型性能的演进轨迹,为后续的纵向比较与回归分析保留了珍贵的历史快照。
使用方法
研究者可通过Hugging Face的datasets库便捷地加载与使用该数据集。具体而言,调用load_dataset函数并指定数据集名称“open-llm-leaderboard/details_maldv__SHRDFU-7b-delta”,同时传入目标任务对应的配置名称(如“harness_winogrande_5”)及所需的分割标识(如“train”),即可获取特定任务的最新评估细节。若需回溯历史版本的评估结果,只需将分割参数替换为对应运行的时间戳字符串。此外,通过加载“results”配置,用户能够直接获取模型在所有任务上的聚合性能数据,从而高效地进行模型间对比或能力分析。数据以Parquet格式存储,保证了大规模数据的高效读写与兼容性。
背景与挑战
背景概述
随着大型语言模型(LLMs)的蓬勃发展,如何系统、公正地评估其多维度能力成为学界与工业界共同关注的核心议题。Open LLM Leaderboard作为一个开放的基准测试平台,旨在通过标准化流程对各类开源模型进行横向对比。在此背景下,由研究人员maldv开发的SHRDFU-7b-delta模型于2024年4月2日参与了该排行榜的评测,其对应的评估细节数据集由HuggingFace团队(联系人clémentine@hf.co)自动生成并发布。该数据集记录了模型在63项任务上的表现,涵盖常识推理(如HellaSwag、Winogrande)、数学推理(GSM8K)、多领域知识(MMLU)及对抗性问答(TruthfulQA)等,为理解7B参数级别模型的性能边界提供了结构化参考,推动了开源模型评估体系的透明化与可复现性。
当前挑战
该数据集所反映的核心挑战首先在于模型在复杂推理任务上的显著短板:在GSM8K数学推理任务中准确率仅为0%,揭示了当前模型在符号运算与多步逻辑推导上的根本性局限。其次,评估结果暴露出知识分布的不均衡性——在高中心理学、美国外交政策等任务上准确率超过78%,而在抽象代数、大学数学等专业领域则低于31%,凸显了训练数据覆盖的偏差问题。从构建层面看,数据集需整合63个异构任务的评测结果,不同任务采用不同的评估指标(如acc、acc_norm、mc1/mc2),且需处理多次运行的时间戳分片与最新结果同步,对数据管道的标准化与版本控制提出了严苛要求。
常用场景
经典使用场景
在大型语言模型(LLM)的评估体系中,该数据集作为Open LLM Leaderboard的标准化评测组件,主要用于对特定模型(如maldv/SHRDFU-7b-delta)进行多维度的能力量化。其核心使用场景涵盖常识推理(如HellaSwag、Winogrande)、知识问答(如ARC-Challenge)、数学推理(如GSM8K)以及涵盖57个学科的大规模多任务语言理解(MMLU)等经典基准测试。研究者通过加载该数据集中各任务的配置与拆分,能够复现模型在特定时间戳下的详细输出与聚合指标,从而进行跨模型的横向对比与纵向追踪。这种细粒度的评测数据为理解模型在复杂认知任务上的表现提供了可靠依据。
衍生相关工作
该数据集衍生了多项重要的学术与工程工作。在评测体系层面,它催生了更精细的评估框架,例如研究者基于其任务配置设计出针对特定能力(如数学推理或知识记忆)的专项测试集。在模型优化领域,该数据集中的失败案例常被用于指导模型微调策略,如针对GSM8K中零准确率的现象,衍生出链式思维(Chain-of-Thought)提示工程的改进工作。此外,该数据集的标准化格式促进了自动化评估工具的开发,如集成持续集成/持续部署(CI/CD)流程的模型评测流水线,以及用于可视化模型能力雷达图的交互式分析平台,极大提升了社区协作效率。
数据集最近研究
最新研究方向
在大型语言模型(LLM)性能评估领域,以Open LLM Leaderboard为标杆的自动化评测体系正成为前沿研究热点。该数据集聚焦于maldv/SHRDFU-7b-delta模型在63项任务上的表现,涵盖ARC挑战、HellaSwag、GSM8K等经典基准,以及涵盖57个学科的MMLU测试。值得注意的是,模型在GSM8K数学推理任务上得分为零,凸显了当前7B参数级模型在复杂符号推理上的显著短板;而在HellaSwag常识推理中,标准化准确率达到77.55%,展现了其在物理世界常识理解上的潜力。这一细粒度评测结果不仅为模型迭代提供了精准的改进方向,也推动了社区对LLM能力边界与评测公平性的深入反思,成为衡量开源模型进步的重要标尺。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作