open-llm-leaderboard-old/details_NeverSleep__Noromaid-7B-0.4-DPO

Name: open-llm-leaderboard-old/details_NeverSleep__Noromaid-7B-0.4-DPO
Creator: open-llm-leaderboard-old
Published: 2024-01-13 20:15:57
License: 暂无描述

Hugging Face2024-01-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_NeverSleep__Noromaid-7B-0.4-DPO

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型NeverSleep/Noromaid-7B-0.4-DPO进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个评估任务。数据集由2次运行生成，每次运行的结果存储为特定配置中的一个分割，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，还有一个名为results的配置存储了所有运行的聚合结果，用于在Open LLM Leaderboard上计算和显示聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在模型NeverSleep/Noromaid-7B-0.4-DPO在Open LLM Leaderboard上的评估运行期间自动创建的。

数据集组成

数据集包含63个配置，每个配置对应一个评估任务。
数据集从2次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train"分割始终指向最新的结果。
一个额外的配置"results"存储所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_NeverSleep__Noromaid-7B-0.4-DPO", "harness_winogrande_5", split="train")

最新结果

以下是2024-01-13T20:13:17.595813运行的最新结果：

python { "all": { "acc": 0.6276281202486842, "acc_stderr": 0.032369463494806044, "acc_norm": 0.6354200747096772, "acc_norm_stderr": 0.033039898413677445, "mc1": 0.2778457772337821, "mc1_stderr": 0.015680929364024647, "mc2": 0.4227934173655964, "mc2_stderr": 0.014275177541071271 }, "harness|arc:challenge|25": { "acc": 0.591296928327645, "acc_stderr": 0.014365750345427006, "acc_norm": 0.6228668941979523, "acc_norm_stderr": 0.014163366896192603 }, "harness|hellaswag|10": { "acc": 0.6459868552081258, "acc_stderr": 0.004772358395130453, "acc_norm": 0.8431587333200558, "acc_norm_stderr": 0.0036290784658809666 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.25, "acc_stderr": 0.04351941398892446, "acc_norm": 0.25, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6074074074074074, "acc_stderr": 0.0421850621536888, "acc_norm": 0.6074074074074074, "acc_norm_stderr": 0.0421850621536888 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.625, "acc_stderr": 0.039397364351956274, "acc_norm": 0.625, "acc_norm_stderr": 0.039397364351956274 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.59, "acc_stderr": 0.04943110704237102, "acc_norm": 0.59, "acc_norm_stderr": 0.04943110704237102 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.6943396226415094, "acc_stderr": 0.028353298073322666, "acc_norm": 0.6943396226415094, "acc_norm_stderr": 0.028353298073322666 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7430555555555556, "acc_stderr": 0.03653946969442099, "acc_norm": 0.7430555555555556, "acc_norm_stderr": 0.03653946969442099 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.47, "acc_stderr": 0.05016135580465919, "acc_norm": 0.47, "acc_norm_stderr": 0.05016135580465919 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.53, "acc_stderr": 0.05016135580465919, "acc_norm": 0.53, "acc_norm_stderr": 0.05016135580465919 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.37, "acc_stderr": 0.048523658709391, "acc_norm": 0.37, "acc_norm_stderr": 0.048523658709391 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6358381502890174, "acc_stderr": 0.03669072477416907, "acc_norm": 0.6358381502890174, "acc_norm_stderr": 0.03669072477416907 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.4215686274509804, "acc_stderr": 0.04913595201274498, "acc_norm": 0.4215686274509804, "acc_norm_stderr": 0.04913595201274498 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.76, "acc_stderr": 0.04292346959909283, "acc_norm": 0.76, "acc_norm_stderr": 0.04292346959909283 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5659574468085107, "acc_stderr": 0.03240038086792747, "acc_norm": 0.5659574468085107, "acc_norm_stderr": 0.03240038086792747 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.4824561403508772, "acc_stderr": 0.04700708033551038, "acc_norm": 0.4824561403508772, "acc_norm_stderr": 0.04700708033551038 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5310344827586206, "acc_stderr": 0.04158632762097828, "acc_norm": 0.5310344827586206, "acc_norm_stderr": 0.04158632762097828 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.40476190476190477, "acc_stderr": 0.025279850397404904, "acc_norm": 0.40476190476190477, "acc_norm_stderr": 0.025279850397404904 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.40476190476190477, "acc_stderr": 0.04390259265377562, "acc_norm": 0.40476190476190477, "acc_norm_stderr": 0.04390259265377562 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.38, "acc_stderr": 0.04878317312145632, "acc_norm": 0.38, "acc_norm_stderr": 0.04878317312145632 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7419354838709677, "acc_stderr": 0.024892469172462843, "acc_norm": 0.7419354838709677, "acc_norm_stderr": 0.024892469172462843 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5123152709359606, "acc_stderr": 0.035169204442208966, "acc_norm": 0.5123152709359606, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.63, "acc_stderr": 0.048523658709391, "acc_norm": 0.63, "acc_norm_stderr": 0.048523658709391 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7696969696969697, "acc_stderr": 0.0328766675860349, "acc_norm": 0.7696969696969697, "acc_norm_stderr": 0.0328766675860349 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7777777777777778, "acc_stderr": 0.02962022787479048, "acc_norm": 0.7777777777777778, "acc_norm_stderr": 0.02962022787479048 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8756476683937824, "acc_stderr": 0.02381447708659355, "acc_norm": 0.8756476683937824, "acc_norm_stderr": 0.02381447708659355 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6358974358974359, "acc_stderr": 0.02439667298509476, "acc_norm": 0.6358974358974359, "acc_norm_stderr": 0.02439667298509476 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.35185185185185186, "acc_stderr": 0.029116617606083015, "acc_norm": 0.35185185185185186, "acc_norm_stderr": 0.029116617606083015 }, "harness|hendrycksTest-high_

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard评估框架下，对模型NeverSleep/Noromaid-7B-0.4-DPO进行性能评测时自动生成的。它由63个配置组成，每个配置对应一个被评估的任务，例如ARC Challenge、HellaSwag、GSM8K及涵盖多学科的Hendrycks测试集等。数据集的构建基于两次独立的评估运行，每次运行的结果以时间戳命名的分割形式存储于各配置中，其中“latest”分割始终指向最新一次运行的输出。此外，一个名为“results”的额外配置汇总了所有运行的聚合指标，用于在排行榜上展示模型的整体表现。

特点

该数据集的核心特色在于其结构化的多任务评估体系与版本化运行管理。63个配置覆盖了从常识推理、数学解题到多学科知识问答的广泛能力维度，每个配置均包含细粒度的指标，如准确率及其标准误。通过将每次运行结果独立存储为基于时间戳的分割，数据集支持对模型性能的纵向追踪与对比，而“latest”分割的自动更新确保了研究者始终能获取最新结果。这种设计不仅增强了评估的可复现性，也为模型迭代优化提供了清晰的历史记录。

使用方法

用户可通过HuggingFace的datasets库便捷地加载该数据集。例如，使用`load_dataset("open-llm-leaderboard/details_NeverSleep__Noromaid-7B-0.4-DPO", "harness_winogrande_5", split="train")`即可获取Winogrande任务的评估细节。各配置的名称遵循任务标识符格式（如harness_arc_challenge_25），用户可按需指定任务与运行版本。对于想要获取聚合结果的研究者，可直接访问“results”配置中的JSON文件，其中包含了所有任务的综合指标，便于进行模型间的横向比较与分析。

背景与挑战

背景概述

随着大语言模型（LLM）技术的迅猛发展，如何系统化、标准化地评估模型性能成为学术界与工业界共同关注的核心议题。在此背景下，Hugging Face 团队于 2023 年推出了 Open LLM Leaderboard 评测平台，旨在为开源社区提供透明、可复现的模型能力对比基准。该数据集记录了对 NeverSleep/Noromaid-7B-0.4-DPO 模型的详细评测结果，该模型基于 7B 参数规模，采用直接偏好优化（DPO）技术进行微调，由 NeverSleep 团队开发。数据集创建于 2024 年 1 月，覆盖了包括 ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande 和 GSM8K 在内的多项经典基准任务，全面考察模型在常识推理、知识理解、数学计算与事实性判断等多维度上的表现。这些结果不仅为研究者提供了该模型能力的精确量化依据，也推动了大语言模型评测体系的标准化进程。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，当前主流评测基准如 MMLU 和 GSM8K 虽能反映模型的知识广度与推理能力，但难以准确衡量模型在开放域对话、长文本理解与多模态交互等复杂场景下的表现，存在评测维度单一、任务形式固化等局限。在构建过程层面，评测数据的生成与维护面临多重困难：不同基准任务间的评分标准与采样策略需高度统一，以确保跨模型对比的公平性；评测结果受模型推理温度、采样种子等超参数影响显著，需严格设定可复现的实验条件；此外，随着新模型与微调技术的快速迭代，评测数据集需持续更新以覆盖最新能力边界，这对数据版本管理与计算资源的调度提出了更高要求。

常用场景

经典使用场景

在开放大语言模型评测领域，该数据集作为Open LLM Leaderboard的标准化评估记录，典型地用于对NeverSleep/Noromaid-7B-0.4-DPO模型进行多维度性能检验。它整合了ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande和GSM8K等63项经典基准任务的细粒度结果，揭示了模型在常识推理、知识掌握、数学求解及事实一致性等方面的能力轮廓。研究者可借此剖析模型在特定子任务上的优劣，进而指导后续的微调或对齐优化。

解决学术问题

该数据集系统性地回应了大型语言模型可复现性评估的学术诉求。通过记录每一次评估运行的详尽日志与聚合指标，它解决了以往模型比较中因评测环境差异导致的结果不可比难题。其结构化的多任务评测框架为探究模型泛化能力、知识边界以及推理缺陷提供了可靠的数据基础，推动了开放评测标准的确立，并促进了模型性能透明化的学术实践。

衍生相关工作

该数据集衍生了一系列关于模型评测标准化与结果分析的开创性工作。例如，基于其多轮运行记录，研究者得以深入分析模型性能的随机波动与稳定性；其详细的任务配置信息催生了针对特定能力（如医学知识或逻辑谬误检测）的专项评估研究。此外，该数据集的公开结构也启发了后续工作如LLM评估结果的可视化工具与跨模型对比平台，进一步丰富了开放评测生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集