open-llm-leaderboard-old/details_yunconglong__10.7Bx2_DPO_200

Name: open-llm-leaderboard-old/details_yunconglong__10.7Bx2_DPO_200
Creator: open-llm-leaderboard-old
Published: 2024-01-20 13:34:22
License: 暂无描述

Hugging Face2024-01-20 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_yunconglong__10.7Bx2_DPO_200

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型yunconglong/10.7Bx2_DPO_200在Open LLM Leaderboard上的评估运行期间自动创建的。数据集包含63个配置，每个配置对应一个评估任务。数据集来源于1次运行，每次运行都作为一个特定的分割存在，分割名称使用运行的时间戳命名。train分割始终指向最新的结果。此外，还有一个名为results的配置，存储了运行的所有聚合结果，用于在Leaderboard上计算和显示聚合指标。数据集的结构允许使用HuggingFace的数据集库加载特定运行的详细信息。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 yunconglong/10.7Bx2_DPO_200 在 Open LLM Leaderboard 上的自动创建的。数据集包含 63 个配置，每个配置对应一个评估任务。

数据集结构

配置数量：63 个配置
数据来源：1 次运行结果
数据分割：每个配置包含特定分割，分割名称使用运行的时间戳。"train" 分割始终指向最新结果。
额外配置："results" 配置存储所有运行的聚合结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_yunconglong__10.7Bx2_DPO_200", "harness_winogrande_5", split="train")

最新结果

以下是 2024-01-20T13:31:45.156743 运行的最新结果：

python { "all": { "acc": 0.6651670611224345, "acc_stderr": 0.031427367721252715, "acc_norm": 0.6668881977957413, "acc_norm_stderr": 0.03205462104028336, "mc1": 0.5924112607099143, "mc1_stderr": 0.017201949234553107, "mc2": 0.7538120166331955, "mc2_stderr": 0.014190041419041042 }, "harness|arc:challenge|25": { "acc": 0.681740614334471, "acc_stderr": 0.013611993916971451, "acc_norm": 0.7022184300341296, "acc_norm_stderr": 0.013363080107244484 }, "harness|hellaswag|10": { "acc": 0.7027484564827724, "acc_stderr": 0.004561141293448453, "acc_norm": 0.8822943636725752, "acc_norm_stderr": 0.003216006357760382 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.36, "acc_stderr": 0.04824181513244218, "acc_norm": 0.36, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6296296296296297, "acc_stderr": 0.041716541613545426, "acc_norm": 0.6296296296296297, "acc_norm_stderr": 0.041716541613545426 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7631578947368421, "acc_stderr": 0.03459777606810535, "acc_norm": 0.7631578947368421, "acc_norm_stderr": 0.03459777606810535 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7056603773584905, "acc_stderr": 0.028049186315695248, "acc_norm": 0.7056603773584905, "acc_norm_stderr": 0.028049186315695248 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7847222222222222, "acc_stderr": 0.03437079344106135, "acc_norm": 0.7847222222222222, "acc_norm_stderr": 0.03437079344106135 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.44, "acc_stderr": 0.04988876515698589, "acc_norm": 0.44, "acc_norm_stderr": 0.04988876515698589 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.47, "acc_stderr": 0.050161355804659205, "acc_norm": 0.47, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.29, "acc_stderr": 0.045604802157206845, "acc_norm": 0.29, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.4019607843137255, "acc_stderr": 0.04878608714466996, "acc_norm": 0.4019607843137255, "acc_norm_stderr": 0.04878608714466996 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.77, "acc_stderr": 0.042295258468165065, "acc_norm": 0.77, "acc_norm_stderr": 0.042295258468165065 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.625531914893617, "acc_stderr": 0.03163910665367291, "acc_norm": 0.625531914893617, "acc_norm_stderr": 0.03163910665367291 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.047028804320496165, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.047028804320496165 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5724137931034483, "acc_stderr": 0.04122737111370332, "acc_norm": 0.5724137931034483, "acc_norm_stderr": 0.04122737111370332 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.46296296296296297, "acc_stderr": 0.025680564640056882, "acc_norm": 0.46296296296296297, "acc_norm_stderr": 0.025680564640056882 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.4523809523809524, "acc_stderr": 0.044518079590553275, "acc_norm": 0.4523809523809524, "acc_norm_stderr": 0.044518079590553275 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.36, "acc_stderr": 0.048241815132442176, "acc_norm": 0.36, "acc_norm_stderr": 0.048241815132442176 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.8096774193548387, "acc_stderr": 0.022331707611823078, "acc_norm": 0.8096774193548387, "acc_norm_stderr": 0.022331707611823078 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5123152709359606, "acc_stderr": 0.035169204442208966, "acc_norm": 0.5123152709359606, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.72, "acc_stderr": 0.04512608598542128, "acc_norm": 0.72, "acc_norm_stderr": 0.04512608598542128 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.8121212121212121, "acc_stderr": 0.03050193405942914, "acc_norm": 0.8121212121212121, "acc_norm_stderr": 0.03050193405942914 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8737373737373737, "acc_stderr": 0.023664359402880232, "acc_norm": 0.8737373737373737, "acc_norm_stderr": 0.023664359402880232 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9067357512953368, "acc_stderr": 0.02098685459328971, "acc_norm": 0.9067357512953368, "acc_norm_stderr": 0.02098685459328971 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6512820512820513, "acc_stderr": 0.02416278028401772, "acc_norm": 0.6512820512820513, "acc_norm_stderr": 0.02416278028401772 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.32592592592592595, "acc_stderr": 0.028578348

搜集汇总

数据集介绍

构建方式

该数据集源自对模型 yunconglong/10.7Bx2_DPO_200 在 Open LLM Leaderboard 平台上的自动评估流程。整个构建过程围绕 63 个独立评测任务展开，每个任务对应一个数据集配置，共计 63 个配置。每个配置内包含一个以时间戳命名的数据分割，代表一次完整的运行记录，而“train”分割则始终指向最新一次的运行结果。此外，系统还额外生成了一个名为“results”的配置，用于汇聚所有运行的聚合指标，为排行榜上的综合评分提供数据支撑。

特点

该数据集最显著的特征在于其多维度、细粒度的评测结构。它不仅覆盖了 ARC-Challenge、HellaSwag、GSM8K 和 WinoGrande 等经典基准，还囊括了涵盖从抽象代数到病毒学的 57 个 MMLU 子任务，实现了对模型在推理、常识、数学及专业领域知识上的全面度量。每个任务配置均以 Parquet 格式存储，便于高效读取。数据集通过“latest”分割自动追踪最新进展，同时保留历史运行快照，支持纵向对比分析，为模型性能的持续追踪提供了坚实的数据基础设施。

使用方法

借助 Hugging Face Datasets 库，用户可以便捷地加载该数据集。例如，通过调用 load_dataset 函数并指定配置名称（如“harness_winogrande_5”）及分割（如“train”）即可获取特定任务的详细评估结果。数据以 Parquet 格式存储，支持快速迭代和过滤。对于需要整体概览的场景，可直接访问“results”配置，其中包含了所有任务的聚合准确率与标准误差，便于研究者快速评估模型在不同维度上的综合表现，从而进行深入的性能剖析与对比研究。

背景与挑战

背景概述

随着大语言模型规模的持续扩张，如何系统性地评估其多维度能力成为自然语言处理领域的核心议题。Open LLM Leaderboard作为HuggingFace社区于2023年发起的重要基准平台，旨在通过标准化测评流程衡量模型在推理、常识理解和数学求解等关键任务上的表现。该数据集记录了模型yunconglong/10.7Bx2_DPO_200在2024年1月20日的完整评估结果，涵盖ARC挑战赛、HellaSwag、MMLU（涵盖57个学科）、TruthfulQA、WinoGrande及GSM8K等63项配置任务。研究人员通过直接偏好优化（DPO）方法对10.7B参数规模的模型进行微调，并在此平台上验证其综合能力，为后续模型迭代提供了可复现的量化参考。该数据集的发布填补了中等规模模型在标准化评估框架下的细粒度性能记录空白，推动了开源社区对模型能力透明化比较的进程。

当前挑战

该数据集所反映的核心挑战集中于大语言模型评估的标准化与全面性。在领域问题层面，模型需同时应对推理（ARC）、常识判断（HellaSwag）、多学科知识（MMLU的57个细分领域）及数学推理（GSM8K）等异构任务，不同任务对模型的知识储备、逻辑链条构建和数值计算能力提出差异化要求，例如模型在高中物理任务中准确率仅39.1%，暴露出专业领域推理能力的薄弱环节。在构建过程中，评估框架需处理63项独立配置的并行运行，确保每项任务的时间戳、随机种子和评估指标（如acc_norm）的一致性，同时维护结果数据的版本追溯——该数据集通过parquet文件按时间戳分割存储，但不同运行轮次间任务覆盖范围的差异增加了结果汇总的复杂性。此外，TruthfulQA等对抗性任务的设计要求模型在保持准确性的同时规避常见谬误，进一步放大了评估基准设计的难度。

常用场景

经典使用场景

在开放大语言模型评测的宏大叙事中，该数据集作为Open LLM Leaderboard上对yunconglong/10.7Bx2_DPO_200模型进行系统评估的产物，承载着跨任务细粒度性能追踪的使命。其经典使用场景在于通过63个独立配置分别对应ARC-Challenge、HellaSwag、MMLU多学科子集、TruthfulQA、Winogrande及GSM8K等基准测试，研究者可借助load_dataset接口精准加载特定任务（如harness_winogrande_5）的评测细节，从而对模型在常识推理、数学求解、知识理解与事实一致性等维度的表现进行深度剖析。

衍生相关工作

该数据集衍生出的经典工作主要围绕Open LLM Leaderboard生态展开，例如后续研究者可基于其结构化结果复现评测流程，构建模型性能随时间演进的趋势分析。此外，其细粒度配置设计启发了类似HuggingFace Open LLM Benchmark的自动化评测框架，使得社区能够通过标准化接口快速比较不同模型（如Mixtral、Llama系列）在同等条件下的表现。这些工作共同塑造了开源大模型领域以透明、可复现为核心的评测文化，成为模型选型与学术投稿中不可或缺的参照基准。

数据集最近研究