five

open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft

收藏
Hugging Face2023-10-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Leaderboard上对模型Yukang/Llama-2-13b-chat-longlora-32k-sft进行评估时自动生成的。数据集由64个配置组成,每个配置对应一个评估任务。数据集是从4次运行中创建的,每次运行在每个配置中表示为特定的分割,分割名称由运行的时间戳命名。train分割始终指向最新结果。此外,一个名为results的配置存储了所有运行的聚合结果,这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了一个示例,展示了如何使用Python中的datasets库加载运行中的详细信息。
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

数据集简介

该数据集是在模型 Yukang/Llama-2-13b-chat-longlora-32k-sftOpen LLM Leaderboard 上的评估运行期间自动创建的。

数据集结构

  • 配置数量:64个配置,每个配置对应一个评估任务。
  • 数据来源:数据集由4次运行生成,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • 最新结果:"train" 分割始终指向最新的结果。
  • 结果汇总:一个额外的配置 "results" 存储所有运行的汇总结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-29T02:16:35.328850 运行的最新结果: python { "all": { "em": 0.17051174496644295, "em_stderr": 0.003851429222727117, "f1": 0.23656669463087293, "f1_stderr": 0.003934121554985558, "acc": 0.32044198895027626, "acc_stderr": 0.006741557601060113 }, "harness|drop|3": { "em": 0.17051174496644295, "em_stderr": 0.003851429222727117, "f1": 0.23656669463087293, "f1_stderr": 0.003934121554985558 }, "harness|gsm8k|5": { "acc": 0.0, "acc_stderr": 0.0 }, "harness|winogrande|5": { "acc": 0.6408839779005525, "acc_stderr": 0.013483115202120225 } }

配置详情

  • harness_arc_challenge_25

    • 分割:2023_10_03T19_01_52.732036
      • 路径:**/details_harness|arc:challenge|25_2023-10-03T19-01-52.732036.parquet
    • 分割:2023_10_03T19_09_03.932151
      • 路径:**/details_harness|arc:challenge|25_2023-10-03T19-09-03.932151.parquet
    • 分割:latest
      • 路径:**/details_harness|arc:challenge|25_2023-10-03T19-09-03.932151.parquet
  • harness_drop_3

    • 分割:2023_10_27T06_30_00.713733
      • 路径:**/details_harness|drop|3_2023-10-27T06-30-00.713733.parquet
    • 分割:2023_10_29T02_16_35.328850
      • 路径:**/details_harness|drop|3_2023-10-29T02-16-35.328850.parquet
    • 分割:latest
      • 路径:**/details_harness|drop|3_2023-10-29T02-16-35.328850.parquet
  • harness_gsm8k_5

    • 分割:2023_10_27T06_30_00.713733
      • 路径:**/details_harness|gsm8k|5_2023-10-27T06-30-00.713733.parquet
    • 分割:2023_10_29T02_16_35.328850
      • 路径:**/details_harness|gsm8k|5_2023-10-29T02-16-35.328850.parquet
    • 分割:latest
      • 路径:**/details_harness|gsm8k|5_2023-10-29T02-16-35.328850.parquet
  • harness_hellaswag_10

    • 分割:2023_10_03T19_01_52.732036
      • 路径:**/details_harness|hellaswag|10_2023-10-03T19-01-52.732036.parquet
    • 分割:2023_10_03T19_09_03.932151
      • 路径:**/details_harness|hellaswag|10_2023-10-03T19-09-03.932151.parquet
    • 分割:latest
      • 路径:**/details_harness|hellaswag|10_2023-10-03T19-09-03.932151.parquet
  • harness_hendrycksTest_5

    • 分割:2023_10_03T19_01_52.732036
      • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-electrical_engineering|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-formal_logic|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-global_facts|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_biology|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_european_history|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_geography|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_physics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_psychology|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_statistics|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_us_history|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-high_school_world_history|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-human_aging|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-human_sexuality|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-international_law|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-jurisprudence|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-logical_fallacies|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-machine_learning|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-management|5_2023-10-03T19-01-52.732036.parquet
      • 路径:**/details_harness|hendrycksTest-marketing|5_2023-10-03T19-01-52.732036.parquet
      • 路径:`**/details_harness|hendrycks
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard 提供了一个标准化的评测框架。本数据集正是针对 Yukang/Llama-2-13b-chat-longlora-32k-sft 模型在该排行榜上的评估过程而自动生成的。数据集由 64 个配置组成,每个配置对应一项被评估的任务,这些任务涵盖了从常识推理到数学求解的多样化能力。数据来源于 4 次独立的评估运行,每次运行的结果被存储为对应配置中的一个独立分割,分割名称以运行的时间戳命名。此外,一个名为 "results" 的额外配置汇总了所有运行的聚合结果,用于在排行榜上计算和展示综合指标。
特点
该数据集的核心特点在于其细粒度的结构化设计。每个任务配置下均包含多个时间戳分割,忠实记录了模型在不同时间点的性能表现,便于研究者追踪模型能力的演变。"latest" 分割始终指向最新一次的评估结果,为用户提供了便捷的访问入口。数据集以 Parquet 格式存储,高效且易于处理。其内容不仅包含了如 ARC、HellaSwag、GSM8K 等经典基准的详细评估结果,还通过 "results" 配置提供了聚合后的宏观指标,如准确率、F1 分数及其标准误差,为全面评估模型性能提供了坚实的数据基础。
使用方法
研究人员可通过 Hugging Face 的 datasets 库便捷地加载本数据集。例如,使用 `load_dataset` 函数并指定任务配置名称(如 "harness_winogrande_5")和分割(如 "latest" 或具体时间戳),即可获取对应任务的详细评估记录。对于需要分析模型在特定任务上性能变化趋势的场景,可以遍历不同时间戳的分割进行对比。同时,通过加载 "results" 配置,可以快速获取模型在各项任务上的汇总成绩,适用于生成报告或进行模型间的横向比较。数据加载后,可直接利用 Python 生态中的数据分析工具进行深入挖掘与可视化。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,如何公平、全面地评估其性能成为学界与工业界共同关注的核心议题。由HuggingFace团队于2023年发起的Open LLM Leaderboard项目,旨在通过标准化基准测试推动模型能力的透明化比较。该数据集作为Leaderboard的组成部分,专门记录了Yukang团队提出的Llama-2-13b-chat-longlora-32k-sft模型的评估结果,该模型基于Meta的Llama-2架构,通过LongLoRA技术将上下文窗口扩展至32k tokens,并采用监督微调策略优化长文本理解能力。研究聚焦于探索参数高效微调方法在长序列场景下的泛化表现,其评估覆盖了ARC、HellaSwag、MMLU等多元任务,为长上下文语言模型的性能边界提供了关键实证。
当前挑战
当前数据集面临的核心挑战体现在两个维度。在领域问题层面,长文本建模的评估体系尚不完善,现有基准如GSM8K的数学推理任务中该模型准确率为零,暴露出长序列模型在复杂逻辑推理上的脆弱性,而DROP阅读理解任务仅0.17的精确匹配率则揭示了模型对细粒度信息提取的局限性。构建过程中,多轮评估的时间戳分割机制虽保证了结果可追溯性,但不同轮次间任务覆盖不一致(如2023年10月3日与27日的评测任务存在差异)导致跨版本比较困难;此外,64个配置项对应的Parquet文件结构复杂,用户需自定义代码解析特定任务的细粒度结果,增加了二次分析与复现的门槛。
常用场景
经典使用场景
在大规模语言模型的评估范式中,该数据集作为Open LLM Leaderboard的评估运行记录,承载了对Yukang/Llama-2-13b-chat-longlora-32k-sft模型在多项基准任务上的系统性评测。其经典使用场景在于为研究者提供细粒度的模型性能追踪,涵盖ARC挑战、HellaSwag、MMLU、GSM8K及Winogrande等任务,通过多次运行的对比分析,揭示模型在不同推理维度上的表现波动与收敛趋势。
衍生相关工作
该数据集衍生了一系列关于长上下文语言模型评估的经典工作。例如,研究者基于其评估配置复现了LongLoRA在不同基准下的表现,进而提出了更优的长序列微调策略;此外,该数据集的细粒度结果被用于分析模型在MMLU多学科知识上的薄弱环节,催生了针对性数据增强与课程学习方法的探索,推动了长文本理解领域评估体系的完善。
数据集最近研究
最新研究方向
在大型语言模型(LLM)评估领域,Yukang/Llama-2-13b-chat-longlora-32k-sft模型在Open LLM Leaderboard上的评测数据集,揭示了当前前沿研究聚焦于长上下文处理能力与知识推理能力的综合评估。该模型通过LongLoRA技术扩展至32k上下文窗口,在Winogrande常识推理任务上取得64.09%的准确率,但在GSM8K数学推理中表现欠佳,凸显了长序列模型在符号计算任务上的局限性。这一结果与业界对LLM长程依赖与推理深度耦合的热点讨论相呼应,推动了评估基准向多维度、细粒度方向发展。该数据集通过64个配置覆盖ARC、HellaSwag、MMLU等核心任务,为对比长上下文微调策略提供了标准化平台,其影响力体现在为后续研究如RULER、LongBench等长文本基准的构建奠定了方法论基础,加速了LLM在长文档理解、多轮对话等场景的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作