open-llm-leaderboard-old/details_cognitivecomputations__dolphin-2.6-mistral-7b-dpo-laser

Name: open-llm-leaderboard-old/details_cognitivecomputations__dolphin-2.6-mistral-7b-dpo-laser
Creator: open-llm-leaderboard-old
Published: 2024-01-06 08:57:28
License: 暂无描述

Hugging Face2024-01-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_cognitivecomputations__dolphin-2.6-mistral-7b-dpo-laser

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型[cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser](https://huggingface.co/cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser)在[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的表现时自动创建的。数据集由63个配置组成，每个配置对应一个评估任务。数据集由2次运行生成，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳命名。"train"分割始终指向最新的结果。此外，"results"配置存储了所有运行的聚合结果，并用于计算和显示[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在评估模型 cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser 在 Open LLM Leaderboard 上的运行过程中自动创建的。数据集包含 63 个配置，每个配置对应一个评估任务。

数据集结构

配置数量：63
创建来源：2 次运行
分割命名：每个运行的分割以其时间戳命名，"train" 分割始终指向最新结果。
额外配置："results" 配置存储所有运行结果的聚合，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_cognitivecomputations__dolphin-2.6-mistral-7b-dpo-laser", "harness_winogrande_5", split="train")

最新结果

以下是 2024-01-06T08:55:09.441353 运行的最新结果：

python { "all": { "acc": 0.6321651928198004, "acc_stderr": 0.03241329296366643, "acc_norm": 0.635985368424325, "acc_norm_stderr": 0.03305944195752434, "mc1": 0.4467564259485924, "mc1_stderr": 0.017403977522557144, "mc2": 0.6171088183728592, "mc2_stderr": 0.015045730588189423 }, "harness|arc:challenge|25": { "acc": 0.628839590443686, "acc_stderr": 0.01411797190114282, "acc_norm": 0.6629692832764505, "acc_norm_stderr": 0.013813476652902274 }, "harness|hellaswag|10": { "acc": 0.662617008564031, "acc_stderr": 0.0047185047710837655, "acc_norm": 0.8572993427604063, "acc_norm_stderr": 0.0034905249650619067 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.37, "acc_stderr": 0.04852365870939098, "acc_norm": 0.37, "acc_norm_stderr": 0.04852365870939098 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6148148148148148, "acc_stderr": 0.04203921040156279, "acc_norm": 0.6148148148148148, "acc_norm_stderr": 0.04203921040156279 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6776315789473685, "acc_stderr": 0.03803510248351585, "acc_norm": 0.6776315789473685, "acc_norm_stderr": 0.03803510248351585 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.58, "acc_stderr": 0.049604496374885836, "acc_norm": 0.58, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.690566037735849, "acc_stderr": 0.028450154794118637, "acc_norm": 0.690566037735849, "acc_norm_stderr": 0.028450154794118637 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7361111111111112, "acc_stderr": 0.03685651095897532, "acc_norm": 0.7361111111111112, "acc_norm_stderr": 0.03685651095897532 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.41, "acc_stderr": 0.049431107042371025, "acc_norm": 0.41, "acc_norm_stderr": 0.049431107042371025 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.58, "acc_stderr": 0.049604496374885836, "acc_norm": 0.58, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.5953757225433526, "acc_stderr": 0.03742461193887248, "acc_norm": 0.5953757225433526, "acc_norm_stderr": 0.03742461193887248 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.39215686274509803, "acc_stderr": 0.048580835742663454, "acc_norm": 0.39215686274509803, "acc_norm_stderr": 0.048580835742663454 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.78, "acc_stderr": 0.04163331998932263, "acc_norm": 0.78, "acc_norm_stderr": 0.04163331998932263 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5234042553191489, "acc_stderr": 0.03265019475033582, "acc_norm": 0.5234042553191489, "acc_norm_stderr": 0.03265019475033582 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.45614035087719296, "acc_stderr": 0.046854730419077895, "acc_norm": 0.45614035087719296, "acc_norm_stderr": 0.046854730419077895 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5724137931034483, "acc_stderr": 0.041227371113703316, "acc_norm": 0.5724137931034483, "acc_norm_stderr": 0.041227371113703316 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42592592592592593, "acc_stderr": 0.025467149045469553, "acc_norm": 0.42592592592592593, "acc_norm_stderr": 0.025467149045469553 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.3968253968253968, "acc_stderr": 0.04375888492727061, "acc_norm": 0.3968253968253968, "acc_norm_stderr": 0.04375888492727061 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.39, "acc_stderr": 0.04902071300001974, "acc_norm": 0.39, "acc_norm_stderr": 0.04902071300001974 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7612903225806451, "acc_stderr": 0.02425107126220884, "acc_norm": 0.7612903225806451, "acc_norm_stderr": 0.02425107126220884 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5024630541871922, "acc_stderr": 0.03517945038691063, "acc_norm": 0.5024630541871922, "acc_norm_stderr": 0.03517945038691063 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.72, "acc_stderr": 0.04512608598542127, "acc_norm": 0.72, "acc_norm_stderr": 0.04512608598542127 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7636363636363637, "acc_stderr": 0.03317505930009181, "acc_norm": 0.7636363636363637, "acc_norm_stderr": 0.03317505930009181 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7929292929292929, "acc_stderr": 0.028869778460267042, "acc_norm": 0.7929292929292929, "acc_norm_stderr": 0.028869778460267042 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8808290155440415, "acc_stderr": 0.023381935348121437, "acc_norm": 0.8808290155440415, "acc_norm_stderr": 0.023381935348121437 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6153846153846154, "acc_stderr": 0.02466674491518721, "acc_norm": 0.6153846153846154, "acc_norm_stderr": 0.02466674491518721 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.2777777777777778, "acc_stderr": 0.02730914058823019, "acc_norm": 0.2777777777777

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，Open LLM Leaderboard 作为一项权威基准，为模型性能的量化评估提供了标准化平台。本数据集正是源自对认知计算团队开发的 dolphin-2.6-mistral-7b-dpo-laser 模型在该排行榜上的评测过程。它由两次独立的评估运行自动生成，每次运行的结果被组织为数据集中独立的拆分（split），并以运行时间戳命名，而“train”拆分则始终指向最新一次的评测结果。数据集共包含 63 个配置（configuration），每个配置对应一个具体的评估任务，此外还有一个名为“results”的额外配置，用于存储所有任务的聚合结果，以供排行榜计算和展示综合指标。

特点

该数据集的结构设计精妙且富有层次，体现了对评测过程细致入微的追踪能力。其核心特点在于通过多配置与多拆分的组织方式，完整保留了模型在不同任务、不同时间点上的原始表现细节，使得研究者能够回溯历史评测数据，进行纵向对比分析。每个任务配置下的数据以 Parquet 格式存储，高效且易于处理。同时，数据集中包含了丰富的评估指标，如准确率（acc）及其标准误（acc_stderr），以及针对不同任务类型的特定指标（如 mc1、mc2），为深入理解模型在各类知识领域——从抽象代数到世界宗教——的能力边界提供了详尽的数据支持。

使用方法

研究人员可以便捷地通过 Hugging Face 的 datasets 库加载该数据集，以进行深入的模型性能分析。具体而言，可通过指定任务名称（如“harness_winogrande_5”）和所需的时间戳拆分（如“train”或特定运行时间戳）来获取对应数据。例如，执行 `load_dataset("open-llm-leaderboard/details_cognitivecomputations__dolphin-2.6-mistral-7b-dpo-laser", "harness_winogrande_5", split="train")` 即可加载最新的 Winogrande 任务结果。此外，用户亦可通过访问“results”配置下的 JSON 文件，直接获取所有任务的聚合性能概览，从而高效地评估模型的综合实力。

背景与挑战

背景概述

近年来，大规模语言模型的评估已成为自然语言处理领域的重要研究方向。Open LLM Leaderboard由Hugging Face团队于2023年创建，旨在为开源大语言模型提供标准化、可复现的性能评测平台。该数据集记录了cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser模型在2024年1月6日进行的两次评估运行结果，涵盖ARC挑战赛、HellaSwag、MMLU、TruthfulQA、Winogrande和GSM8K等多项基准测试。作为评估框架的核心产出，该数据集不仅为研究者提供了模型在63个配置下的细粒度性能指标，更通过公开透明的评测机制推动了大语言模型领域的良性竞争与进步。其影响力体现在为社区提供了可横向对比的基准数据，促进了模型优化方向的明确化。

当前挑战

该数据集所解决的领域问题在于构建一个统一、公正的大语言模型性能评估体系。具体挑战包括：1）评测标准碎片化——不同研究机构采用各异的评估指标与数据集，导致模型性能难以直接比较；2）评测结果可复现性不足——缺乏标准化的运行环境与参数配置，使得实验结果常难以复现；3）多任务覆盖的挑战——要求模型在常识推理、数学计算、知识问答等57个MMLU子任务上同时展现能力，对模型的泛化性提出严苛要求。在构建过程中，数据集的挑战还体现在：1）数据格式统一——需将不同评测框架输出的异构结果整合为标准化parquet文件；2）版本管理——需妥善处理多次运行产生的数据版本，确保最新结果与历史结果可追溯；3）存储效率——63个配置的细粒度结果文件需在保持完整性的同时优化存储结构。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard的评测产物，核心用途在于对特定模型（如dolphin-2.6-mistral-7b-dpo-laser）进行多维度性能追踪。它通过63个配置项对应不同评测任务，覆盖ARC挑战赛、HellaSwag常识推理、GSM8K数学问题求解以及涵盖57个学科的MMLU基准测试，为研究者提供了从基础语言理解到专业领域知识的完整评估框架。研究者可加载特定任务的细粒度结果，例如通过'harness_winogrande_5'配置分析模型在代词消歧任务上的表现，从而精准定位模型的能力边界与短板。

实际应用

在实际应用中，该数据集为模型选型与部署决策提供了量化依据。企业可依据其在MMLU各学科（如临床知识69.1%、高中心理学82.9%）的细粒度得分，评估模型在医疗咨询或教育辅导等垂直场景的适用性。同时，GSM8K（47.6%）与Winogrande（79.2%）的差异表现揭示了模型在数学推理与常识理解上的能力分化，指导开发者针对性地进行领域微调或提示工程优化，从而提升特定任务场景下的实用效能。

衍生相关工作

该数据集衍生了一系列具有影响力的后续工作，包括基于其评估结果开发的模型性能预测模型、利用细粒度错误分析改进的训练策略，以及针对特定学科弱点的知识增强方法。研究者通过挖掘MMLU各学科得分差异，提出了课程学习与对抗训练相结合的训练范式；同时，该数据集的时间序列特性催生了模型退化检测工具，能够通过对比多次运行结果自动识别能力衰减。这些工作共同构建了从评估到优化的闭环研究生态，持续推动着大模型评估与训练技术的协同演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集