five

open-llm-leaderboard-old/details_TheBloke__Wizard-Vicuna-13B-Uncensored-GPTQ

收藏
Hugging Face2023-11-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_TheBloke__Wizard-Vicuna-13B-Uncensored-GPTQ
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ时自动生成的,用于Open LLM Leaderboard的评估任务。数据集包含3个配置,每个配置对应一个评估任务,并且每个配置中的分割(split)以运行的时间戳命名。train分割始终指向最新的结果。此外,还有一个名为results的配置,用于存储所有运行的聚合结果,并在Open LLM Leaderboard上显示聚合指标。

该数据集是在评估模型TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ时自动生成的,用于Open LLM Leaderboard的评估任务。数据集包含3个配置,每个配置对应一个评估任务,并且每个配置中的分割(split)以运行的时间戳命名。train分割始终指向最新的结果。此外,还有一个名为results的配置,用于存储所有运行的聚合结果,并在Open LLM Leaderboard上显示聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集卡片 for Evaluation run of TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ

数据集描述

数据集概述

数据集是在模型 TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ 的评估运行期间自动创建的,用于 Open LLM Leaderboard

该数据集由3个配置组成,每个配置对应一个评估任务。

数据集从1次运行中创建。每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割总是指向最新的结果。

额外的配置 "results" 存储所有运行的聚合结果(并用于计算和显示 Open LLM Leaderboard 上的聚合指标)。

加载运行细节的示例如下: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_TheBloke__Wizard-Vicuna-13B-Uncensored-GPTQ_public", "harness_winogrande_5", split="train")

最新结果

以下是 2023-11-07T13:33:21.987098 运行的最新结果(注意,如果连续评估没有覆盖相同的任务,仓库中可能会有其他任务的结果。您可以在每个评估的 "results" 和 "latest" 分割中找到每个任务的结果):

python { "all": { "em": 0.07581795302013423, "em_stderr": 0.0027108434788949637, "f1": 0.14551698825503265, "f1_stderr": 0.0029781067344765754, "acc": 0.42850650411417607, "acc_stderr": 0.010140361969429381 }, "harness|drop|3": { "em": 0.07581795302013423, "em_stderr": 0.0027108434788949637, "f1": 0.14551698825503265, "f1_stderr": 0.0029781067344765754 }, "harness|gsm8k|5": { "acc": 0.09931766489764973, "acc_stderr": 0.008238371412683973 }, "harness|winogrande|5": { "acc": 0.7576953433307024, "acc_stderr": 0.012042352526174787 } }

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评测领域,Open LLM Leaderboard为量化模型性能提供了标准化平台。该数据集源自对TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ模型的单次评估运行,系统性地记录了其在三项核心任务上的表现。数据集结构精巧,包含四个配置:三个分别对应DROP、GSM8K和WinoGrande任务的细粒度评估结果,另一个名为“results”的配置则聚合了全部运行指标。每次评估运行的时间戳被用作数据切分标识,其中“train”切分始终指向最新结果,便于追踪模型性能的演进轨迹。数据以Parquet格式存储,确保了高效存取与可扩展性。
使用方法
研究者可通过HuggingFace的datasets库便捷调用该数据集。例如,使用load_dataset函数并指定配置名称(如“harness_winogrande_5”)即可加载特定任务的评估细节。通过设置split参数为“train”可获取最新结果,或使用时间戳字符串(如“2023_11_07T13_33_21.987098”)回溯历史运行。对于需要宏观视角的分析,可加载“results”配置以获取所有任务的聚合指标。这种设计允许用户灵活地聚焦于单项任务评估或进行跨任务综合比较,同时为模型迭代的对比实验提供了标准化数据接口。
背景与挑战
背景概述
在大规模语言模型迅猛发展的时代,如何系统性地评估不同模型的性能成为学界与工业界共同关注的焦点。Open LLM Leaderboard作为Hugging Face社区推出的权威评测平台,旨在通过标准化任务对开源语言模型进行横向对比。该数据集诞生于2023年11月,由Hugging Face团队主导创建,核心研究问题在于量化Wizard-Vicuna-13B-Uncensored-GPTQ这一经过GPTQ量化的对话模型在多项自然语言理解任务上的表现。数据集涵盖DROP、GSM8K和Winogrande三项任务,分别考察模型的推理能力、数学解题水平与常识知识。通过公开透明的评估结果,该数据集为研究者提供了模型性能的可靠参考,推动了开源语言模型生态的良性竞争与进步。
当前挑战
当前数据集所面临的挑战主要体现在两个层面。在领域问题层面,语言模型在DROP任务上的精确匹配率仅约7.6%,F1分数为14.6%,GSM8K数学推理准确率不足10%,这些数据暴露出模型在复杂推理与精确计算方面的显著短板,如何提升语义理解与逻辑推导能力成为亟待突破的瓶颈。在构建过程中,评测任务的选择与标准化面临困难,不同任务间的难度差异巨大,例如Winogrande准确率达75.8%,而其他任务表现低迷,这种不均衡性增加了综合评估的复杂性。此外,单次运行产生的数据集样本量有限,评估结果的统计稳定性与可复现性需通过多次运行加以验证,这对自动评测管道的效率与鲁棒性提出了更高要求。
常用场景
经典使用场景
在大型语言模型(LLM)评估领域,该数据集作为Open LLM Leaderboard的标准化评测工具,被广泛用于量化模型的推理能力与常识理解水平。其典型使用场景包括对Wizard-Vicuna-13B-Uncensored-GPTQ这类量化压缩模型进行多维度性能诊断,通过DROP(离散推理)、GSM8K(数学问题求解)和Winogrande(代词消歧)三项经典基准测试,系统性地揭示模型在数值推理、逻辑演绎与语义消歧等核心能力上的表现。研究者可利用该数据集中的细粒度评测结果(如准确率、F1分数及其标准误),精准定位模型在特定任务上的优势与短板。
解决学术问题
该数据集有效回应了学术界对LLM评测标准化与可复现性的迫切需求。传统上,模型评估常因任务配置、采样策略或随机种子差异而难以横向对比,而此数据集通过固定评测流程(如few-shot示例数量、采样参数)和统一指标计算方式,解决了跨模型性能比较的置信度问题。此外,其提供的评测结果标准误(stderr)为统计显著性检验提供了基础,使研究者能科学判断不同模型间的性能差异是否源于随机波动,从而推动LLM能力评估从定性描述走向定量严谨。
实际应用
在实际应用中,该数据集为模型选型与部署决策提供了关键参考。例如,企业在选择聊天机器人或代码生成模型时,可依据该数据集中的Winogrande常识推理得分(如0.7577)评估模型在实际对话中理解歧义指代的能力;GSM8K的数学准确率(0.0993)则直接反映模型在金融计算或教育辅导等场景中的可靠性。同时,数据集对量化模型(如GPTQ压缩版本)的评测结果,帮助开发者权衡模型大小与性能损失,指导边缘设备或资源受限环境下的模型轻量化部署。
数据集最近研究
最新研究方向
随着大语言模型(LLM)的迅猛发展,如何系统性地评估模型在多样化任务中的表现已成为前沿研究的核心议题。该数据集记录了Wizard-Vicuna-13B-Uncensored-GPTQ模型在Open LLM Leaderboard上的评估结果,涵盖DROP、GSM8K和Winogrande等基准任务,精准反映了模型在数值推理、常识推理和阅读理解等维度的能力边界。近期研究热点聚焦于利用此类细粒度评估数据,分析量化模型(如GPTQ)在保持性能与降低资源消耗之间的权衡,并探索其在零样本与少样本场景下的泛化规律。该数据集的公开不仅为社区提供了可复现的基准测试样本,更推动了关于开源模型公平性、鲁棒性及潜在偏差的深入讨论,对构建更透明、更可信的LLM评估体系具有重要示范意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务