five

open-llm-leaderboard-old/details_TheBloke__VicUnlocked-30B-LoRA-HF

收藏
Hugging Face2023-10-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_TheBloke__VicUnlocked-30B-LoRA-HF
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型TheBloke/VicUnlocked-30B-LoRA-HF时自动生成的,包含3个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定分割存储在配置中,分割名称使用运行的时间戳。train分割始终指向最新结果。此外,还有一个results配置存储所有运行的聚合结果,用于在Open LLM Leaderboard上计算和显示聚合指标。

该数据集是在评估模型TheBloke/VicUnlocked-30B-LoRA-HF时自动生成的,包含3个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定分割存储在配置中,分割名称使用运行的时间戳。train分割始终指向最新结果。此外,还有一个results配置存储所有运行的聚合结果,用于在Open LLM Leaderboard上计算和显示聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集卡片 for Evaluation run of TheBloke/VicUnlocked-30B-LoRA-HF

数据集描述

数据集概述

数据集是在模型 TheBloke/VicUnlocked-30B-LoRA-HFOpen LLM Leaderboard 上的评估运行期间自动创建的。

该数据集包含 3 个配置,每个配置对应一个评估任务。

数据集从 2 次运行中创建。每次运行在每个配置中作为一个特定的分割存在,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

一个额外的配置 "results" 存储所有运行的聚合结果(并用于计算和显示 Open LLM Leaderboard 上的聚合指标)。

加载运行细节的示例: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_TheBloke__VicUnlocked-30B-LoRA-HF", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-23T04:52:45.302158 运行的最新结果

python { "all": { "em": 0.001363255033557047, "em_stderr": 0.0003778609196460696, "f1": 0.0645071308724832, "f1_stderr": 0.0013899526153663272, "acc": 0.46941968306093984, "acc_stderr": 0.01051121334026367 }, "harness|drop|3": { "em": 0.001363255033557047, "em_stderr": 0.0003778609196460696, "f1": 0.0645071308724832, "f1_stderr": 0.0013899526153663272 }, "harness|gsm8k|5": { "acc": 0.14404852160727824, "acc_stderr": 0.009672110973065282 }, "harness|winogrande|5": { "acc": 0.7947908445146015, "acc_stderr": 0.011350315707462056 } }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在对模型TheBloke/VicUnlocked-30B-LoRA-HF进行性能评估时自动生成的,隶属于Open LLM Leaderboard评估体系。数据集包含三个配置,分别对应三项评估任务:harness_drop_3、harness_gsm8k_5和harness_winogrande_5。每个配置下存储了两次独立评估运行的结果,每次运行以其时间戳作为分割标识,而'train'分割始终指向最新一次运行的评估数据。此外,还设有'results'配置,用于汇总并存储所有运行的整体聚合指标,为排行榜上的综合评分提供数据支撑。
特点
该数据集的结构化设计体现了评估过程的动态性与可追溯性。每个任务配置下的分割按时间戳命名,使得研究者能够精准回溯不同时间点的评估细节,便于比较模型性能的演变。'train'分割自动指向最新结果,简化了数据加载流程。'results'配置则浓缩了跨任务的综合表现,涵盖精确匹配率、F1分数及准确率等核心指标及其标准误差,为模型能力的量化分析提供了全面视角。
使用方法
使用HuggingFace的datasets库可便捷加载该数据集。例如,通过load_dataset函数指定数据集名称与任务配置(如'harness_winogrande_5'),并设置split='train'即可获取最新评估结果。如需查阅特定历史运行,可依据时间戳分割名称进行加载。聚合指标则可通过'results'配置获取,便于整体性能分析。数据集以Parquet格式存储,支持高效的数据读取与处理。
背景与挑战
背景概述
随着大规模语言模型(LLMs)的迅猛发展,如何系统性地评估其在不同自然语言理解与生成任务上的表现,已成为人工智能领域的核心议题。为此,Hugging Face团队于2023年推出了Open LLM Leaderboard,旨在为开源社区提供一个标准化、透明化的模型性能比较平台。该数据集正是针对模型TheBloke/VicUnlocked-30B-LoRA-HF在排行榜上的评估运行而自动生成的,由Clémentine Fourrier(联系邮箱:clementine@hf.co)等研究人员主导创建。数据集记录了该模型在DROP、GSM8K和WinoGrande三项基准任务上的详细评估结果,涵盖了精确匹配率、F1分数和准确率等关键指标,为研究社区提供了宝贵的大模型性能参考,推动了开源LLM的公平比较与进步。
当前挑战
该数据集所解决的领域挑战主要体现在大规模语言模型评估的标准化与可重复性上。传统上,LLM的性能评测往往因任务选择、评估指标和实现细节的差异而难以横向比较,Open LLM Leaderboard通过统一评估框架(如LM Evaluation Harness)有效缓解了这一困境。然而,构建过程中面临诸多挑战:首先,评估运行需确保不同时间点的结果具有一致性和可比性,数据集采用时间戳分割来管理多次运行,但如何界定“最新”结果并处理任务覆盖不一致的问题仍需谨慎;其次,DROP任务的极低精确匹配率(0.00136)和F1分数(0.0645)揭示了模型在复杂推理场景下的显著不足,提示现有评估体系可能无法充分捕捉模型能力的细微差异;最后,数据集的自动生成机制虽高效,但缺乏对评估噪声(如随机种子、硬件差异)的系统控制,可能影响结论的稳健性。
常用场景
经典使用场景
在大型语言模型的蓬勃发展中,模型性能的可靠评估成为推动技术进步的关键基石。该数据集专为记录VicUnlocked-30B-LoRA-HF模型在Open LLM Leaderboard上的评测过程而创建,涵盖了DROP、GSM8K和WinoGrande三项经典基准任务的详细结果。其核心使用场景在于,为研究人员提供了一种标准化、可复现的模型评估数据存储与访问方式。通过按时间戳划分的数据分片和统一的'latest'分割,研究者能够便捷地追溯模型在每次评测中的具体表现,从而深入分析其在不同推理与知识任务上的能力边界。这一设计不仅简化了跨模型对比的流程,更为后续的模型优化与迭代提供了坚实的数据基础。
实际应用
在实际应用层面,该数据集构成了一个动态的、社区驱动的模型质量监控与筛选平台。对于希望部署VicUnlocked-30B-LoRA-HF等开源模型的开发者而言,他们无需自行搭建复杂的评测管线,即可通过本数据集获取模型在数学推理(GSM8K)、常识推理(WinoGrande)和阅读理解(DROP)等关键任务上的量化表现。这些指标直接服务于模型选型决策,帮助从业者根据具体业务场景(如教育辅导、智能客服)选择最合适的模型版本。此外,数据集的时间序列特性使其能够追踪模型在持续微调过程中的性能演变,从而为生产环境中的模型版本管理提供数据驱动的判断依据。
衍生相关工作
作为Open LLM Leaderboard生态系统的关键组成部分,该数据集催生了一系列重要的衍生研究工作。它直接支撑了针对VicUnlocked-30B-LoRA-HF模型性能的深度剖析,例如通过分析GSM8K上的准确率与DROP上的F1分数,研究者可以揭示模型在符号推理与语义理解之间的权衡。更进一步,该数据集的公开可用性激励了社区开展评测方法学的研究,如探索不同few-shot样例数量对结果稳定性的影响,或设计更鲁棒的聚合统计量。此外,它也促进了针对LoRA微调策略的对比分析,使学者能够将VicUnlocked-30B-LoRA-HF的性能表现与同类参数高效微调模型进行横向比较,从而推动了对轻量化模型能力边界的系统性认知。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务