five

open-llm-leaderboard-old/details_rwitz__experiment26-truthy-iter-0

收藏
Hugging Face2024-03-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_rwitz__experiment26-truthy-iter-0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型rwitz/experiment26-truthy-iter-0的评估运行期间自动创建的,用于Open LLM Leaderboard的评估。数据集由63个配置组成,每个配置对应一个评估任务。数据集包含1次运行的详细信息,每次运行都作为一个特定的分割存储在配置中,分割名称使用运行的时间戳命名。train分割始终指向最新的结果。此外,数据集还包含一个名为results的配置,用于存储所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在模型rwitz/experiment26-truthy-iter-0的评估运行期间自动创建的,用于Open LLM Leaderboard的评估。数据集由63个配置组成,每个配置对应一个评估任务。数据集包含1次运行的详细信息,每次运行都作为一个特定的分割存储在配置中,分割名称使用运行的时间戳命名。train分割始终指向最新的结果。此外,数据集还包含一个名为results的配置,用于存储所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集来源

该数据集是在对模型 rwitz/experiment26-truthy-iter-0 进行评估运行期间自动创建的,用于 Open LLM Leaderboard

数据集组成

数据集包含 63 个配置,每个配置对应一个评估任务。数据集从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_rwitz__experiment26-truthy-iter-0", "harness_winogrande_5", split="train")

最新结果

以下是 2024-03-12T05:58:55.647981 运行的最新结果

python { "all": { "acc": 0.650217641573161, "acc_stderr": 0.03204892295714364, "acc_norm": 0.6492041885248195, "acc_norm_stderr": 0.032723684993068346, "mc1": 0.6328029375764994, "mc1_stderr": 0.016874805001453184, "mc2": 0.7786497902177597, "mc2_stderr": 0.013722813397184086 }, "harness|arc:challenge|25": { "acc": 0.7150170648464164, "acc_stderr": 0.013191348179838795, "acc_norm": 0.7329351535836177, "acc_norm_stderr": 0.012928933196496363 }, "harness|hellaswag|10": { "acc": 0.716391157140012, "acc_stderr": 0.004498280244494493, "acc_norm": 0.8910575582553276, "acc_norm_stderr": 0.0031093023001762055 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.32, "acc_stderr": 0.04688261722621505, "acc_norm": 0.32, "acc_norm_stderr": 0.04688261722621505 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6370370370370371, "acc_stderr": 0.04153948404742398, "acc_norm": 0.6370370370370371, "acc_norm_stderr": 0.04153948404742398 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7105263157894737, "acc_stderr": 0.03690677986137283, "acc_norm": 0.7105263157894737, "acc_norm_stderr": 0.03690677986137283 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.64, "acc_stderr": 0.04824181513244218, "acc_norm": 0.64, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.6981132075471698, "acc_stderr": 0.02825420034443866, "acc_norm": 0.6981132075471698, "acc_norm_stderr": 0.02825420034443866 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7708333333333334, "acc_stderr": 0.03514697467862388, "acc_norm": 0.7708333333333334, "acc_norm_stderr": 0.03514697467862388 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.48, "acc_stderr": 0.050211673156867795, "acc_norm": 0.48, "acc_norm_stderr": 0.050211673156867795 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.57, "acc_stderr": 0.04975698519562428, "acc_norm": 0.57, "acc_norm_stderr": 0.04975698519562428 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.29, "acc_stderr": 0.04560480215720684, "acc_norm": 0.29, "acc_norm_stderr": 0.04560480215720684 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6647398843930635, "acc_stderr": 0.03599586301247077, "acc_norm": 0.6647398843930635, "acc_norm_stderr": 0.03599586301247077 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.37254901960784315, "acc_stderr": 0.04810840148082636, "acc_norm": 0.37254901960784315, "acc_norm_stderr": 0.04810840148082636 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5702127659574469, "acc_stderr": 0.03236214467715564, "acc_norm": 0.5702127659574469, "acc_norm_stderr": 0.03236214467715564 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.47368421052631576, "acc_stderr": 0.046970851366478626, "acc_norm": 0.47368421052631576, "acc_norm_stderr": 0.046970851366478626 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5310344827586206, "acc_stderr": 0.04158632762097828, "acc_norm": 0.5310344827586206, "acc_norm_stderr": 0.04158632762097828 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.4126984126984127, "acc_stderr": 0.02535574126305527, "acc_norm": 0.4126984126984127, "acc_norm_stderr": 0.02535574126305527 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.47619047619047616, "acc_stderr": 0.04467062628403273, "acc_norm": 0.47619047619047616, "acc_norm_stderr": 0.04467062628403273 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.32, "acc_stderr": 0.04688261722621505, "acc_norm": 0.32, "acc_norm_stderr": 0.04688261722621505 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7806451612903226, "acc_stderr": 0.023540799358723295, "acc_norm": 0.7806451612903226, "acc_norm_stderr": 0.023540799358723295 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5123152709359606, "acc_stderr": 0.035169204442208966, "acc_norm": 0.5123152709359606, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.71, "acc_stderr": 0.045604802157206845, "acc_norm": 0.71, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7757575757575758, "acc_stderr": 0.03256866661681102, "acc_norm": 0.7757575757575758, "acc_norm_stderr": 0.03256866661681102 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.797979797979798, "acc_stderr": 0.02860620428922987, "acc_norm": 0.797979797979798, "acc_norm_stderr": 0.02860620428922987 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9067357512953368, "acc_stderr": 0.02098685459328973, "acc_norm": 0.9067357512953368, "acc_norm_stderr": 0.02098685459328973 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.658974358974359, "acc_stderr": 0.02403548967633508, "acc_norm": 0.658974358974359, "acc_norm_stderr": 0.02403548967633508 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.3111111111111111, "acc_stderr": 0.028226446749683515, "acc_norm": 0.3111111111111111, "acc_norm_stderr": 0.028226446749683515 }, "harness|

搜集汇总
数据集介绍
main_image_url
构建方式
在大规模语言模型评估领域,Open LLM Leaderboard 提供了一个标准化评测框架。该数据集源自对 rwitz/experiment26-truthy-iter-0 模型的一次完整评估运行,由 HuggingFace 的评估流水线自动生成。数据集包含 63 个配置,每个配置对应一项被评估的任务,覆盖了从常识推理到专业学科知识的广泛维度。每个运行记录被组织为独立的 split,并以时间戳命名,而 'train' split 则始终指向最新一次的评估结果。此外,一个名为 'results' 的额外配置汇总了所有任务的聚合指标,用于在 Leaderboard 上计算和展示模型的综合表现。
使用方法
使用该数据集进行模型性能分析极为便捷。研究者可通过 HuggingFace 的 datasets 库,调用 load_dataset 函数,并指定目标任务的配置名称(如 'harness_winogrande_5')及所需的 split(如 'train' 以获取最新结果),即可加载对应的 Parquet 文件。加载后的数据可以直接用于复现评估结果、进行错误分析或与其他模型进行横向对比。这种即插即用的接口设计,极大地降低了研究者获取和利用标准化评估数据的门槛,促进了模型评测工作的可重复性与透明度。
背景与挑战
背景概述
随着大语言模型(LLM)在自然语言处理领域的广泛应用,如何系统性地评估其多维度能力成为学界与工业界共同关注的焦点。Hugging Face 团队于2023年发起 Open LLM Leaderboard 项目,旨在通过标准化评测框架衡量开源模型的推理、知识及安全性等核心指标。该数据集即为此项目的衍生成果,由 Clementine 等研究人员创建,专注于记录模型 rwitz/experiment26-truthy-iter-0 在 63 个任务上的细粒度表现,覆盖 ARC、HellaSwag、GSM8K 及 MMLU 等权威基准。其核心研究问题在于揭示模型在常识推理、数学解题及专业知识等领域的真实能力边界,为社区提供可复现的评估参考。该数据集的发布推动了模型性能的透明化比较,对后续模型迭代与评测标准制定产生了深远影响。
当前挑战
当前数据集面临的核心挑战在于评测体系的全面性与公平性。一方面,大语言模型在知识密集型任务(如 MMLU 中的高等数学与医学遗传学)上表现参差,暴露出模型在长尾知识与逻辑推理方面的系统性短板,例如在抽象代数与大学数学任务中准确率不足 30%,凸显了领域泛化能力的瓶颈。另一方面,构建过程中需应对评测任务异构性带来的标准化难题——不同任务的格式(如生成式 GSM8K 与多项选择式 ARC)要求统一的评估管线,而模型输出对提示词模板的敏感性易引入偏差。此外,单次运行结果可能受随机性影响,需通过多次重复实验确保统计显著性,这增加了数据收集与质量控制的复杂性。
常用场景
经典使用场景
该数据集作为Open LLM Leaderboard评估流程的产物,专为记录和复现大语言模型在标准化基准测试中的细粒度表现而设计。研究者可借助该数据集,通过加载特定任务配置(如harness_winogrande_5)与对应时间戳分割,获取模型在ARC挑战、HellaSwag、MMLU等多维度任务上的逐项得分与统计误差。其核心价值在于为模型性能的横向对比提供透明、可追溯的原始数据支撑,从而助力语言模型能力图谱的精准刻画与迭代优化。
解决学术问题
该数据集有效解决了大语言模型评估中结果不可复现与指标碎片化的学术困境。通过将63个评测任务的原始输出与聚合指标结构化存储,它使研究者能够摆脱对单一排行榜分数的依赖,深入分析模型在常识推理(如Winogrande)、数学求解(GSM8K)及专业领域知识(MMLU各子集)等维度的能力边界。这种细粒度的评估范式推动了从粗粒度排名向能力剖面分析的学术范式转型,为理解模型泛化性与鲁棒性提供了实证基础。
实际应用
在实际应用中,该数据集为模型选型与领域适配提供了量化决策依据。企业或研究机构可基于数据集中的任务级表现,筛选出在特定场景(如医疗问答、法律推理)中具备优势的模型。例如,通过分析模型在MMLU临床知识子集上的0.698准确率,可评估其在辅助诊断系统中的适用性。此外,数据集的时间戳分割机制支持对模型迭代版本进行回溯性比较,从而在模型部署前实现风险预判与性能验证。
数据集最近研究
最新研究方向
在大型语言模型评估领域,Open LLM Leaderboard 已成为衡量模型综合能力的权威基准平台。该数据集记录了实验性模型 experiment26-truthy-iter-0 在 2024 年 3 月的完整评估轨迹,覆盖了从 ARC 挑战赛到 GSM8K 数学推理等 63 个多样化任务。前沿研究聚焦于模型在 TruthfulQA 上的诚实性表现(MC1 达 63.28%)与 Winogrande 常识推理(84.93%)之间的能力分野,揭示了当前模型在事实一致性上的局限性。这一细粒度评估范式推动了可解释性研究的发展,促使学界关注模型在 MMLU 多学科知识(如高中政府学 90.67%)与数学逻辑(大学数学仅 29%)之间的显著性能差异,为未来对齐与鲁棒性优化提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作