five

open-llm-leaderboard-old/details_yanolja__KoSOLAR-10.7B-v0.3

收藏
Hugging Face2024-02-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_yanolja__KoSOLAR-10.7B-v0.3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Leaderboard上对模型yanolja/KoSOLAR-10.7B-v0.3进行评估时自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,results配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在Open LLM Leaderboard上对模型yanolja/KoSOLAR-10.7B-v0.3进行评估时自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集从1次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,results配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

该数据集是在评估模型 yanolja/KoSOLAR-10.7B-v0.3Open LLM Leaderboard 上的运行过程中自动创建的。数据集包含 63 个配置,每个配置对应一个评估任务。

数据集结构

  • 配置数量:63 个配置
  • 数据来源:从 1 次运行中创建
  • 数据分割:每个配置包含特定分割,分割名称使用运行的时间戳。"train" 分割始终指向最新结果。
  • 额外配置:"results" 配置存储所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_yanolja__KoSOLAR-10.7B-v0.3", "harness_winogrande_5", split="train")

最新结果

以下是 最新结果 的摘要:

python { "all": { "acc": 0.6446467247996722, "acc_stderr": 0.03199116323978402, "acc_norm": 0.6480999709891943, "acc_norm_stderr": 0.03263755435200006, "mc1": 0.29865361077111385, "mc1_stderr": 0.016021570613768542, "mc2": 0.4457188871687363, "mc2_stderr": 0.01421532664873937 }, "harness|arc:challenge|25": { "acc": 0.5861774744027304, "acc_stderr": 0.014392730009221009, "acc_norm": 0.6279863481228669, "acc_norm_stderr": 0.014124597881844461 }, "harness|hellaswag|10": { "acc": 0.6349332802230632, "acc_stderr": 0.004804649197163695, "acc_norm": 0.8372834096793468, "acc_norm_stderr": 0.0036835254688950513 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.29, "acc_stderr": 0.04560480215720683, "acc_norm": 0.29, "acc_norm_stderr": 0.04560480215720683 }, ... }

配置详情

  • harness_arc_challenge_25

    • 分割:2024_02_09T18_39_14.324188, latest
    • 路径:**/details_harness|arc:challenge|25_2024-02-09T18-39-14.324188.parquet
  • harness_gsm8k_5

    • 分割:2024_02_09T18_39_14.324188, latest
    • 路径:**/details_harness|gsm8k|5_2024-02-09T18-39-14.324188.parquet
  • harness_hellaswag_10

    • 分割:2024_02_09T18_39_14.324188, latest
    • 路径:**/details_harness|hellaswag|10_2024-02-09T18-39-14.324188.parquet
  • harness_hendrycksTest_5

    • 分割:2024_02_09T18_39_14.324188, latest
    • 路径:多个路径,包括 **/details_harness|hendrycksTest-abstract_algebra|5_2024-02-09T18-39-14.324188.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard 作为权威的基准平台,为模型性能提供了标准化度量。该数据集专为记录模型 yanolja/KoSOLAR-10.7B-v0.3 在 Leaderboard 上的评估过程而构建,源自单次运行。数据集包含 63 个配置,每个配置对应一项评估任务,并以运行时间戳命名分割,其中 'train' 分割始终指向最新结果。此外,一个名为 'results' 的额外配置存储了所有聚合结果,用于计算和展示 Leaderboard 上的综合指标。
特点
该数据集的核心特色在于其精细化的任务覆盖与结构化存储。它囊括了从常识推理(如 ARC-Challenge、HellaSwag)到数学推理(GSM8K)、从多领域知识(MMLU 的 57 个学科)到语言理解(Winogrande)等广泛任务,每个任务均以独立配置形式呈现。数据以 Parquet 格式存储,便于高效读取,且保留了评估的原始精度指标(如 acc、acc_norm)及其标准误差,为深入分析模型在不同维度上的表现提供了可靠基础。
使用方法
研究人员可通过 Hugging Face 的 datasets 库便捷调用该数据集。例如,使用 `load_dataset` 函数指定数据集名称及目标任务配置(如 'harness_winogrande_5'),即可加载对应评估数据。数据集支持按分割(如 'train' 指向最新结果)或特定时间戳分割进行访问,满足历史对比与最新结果分析的需求。这种设计使得复现评估、任务级性能剖析以及模型改进方向的探索变得高效而直观。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的迅猛发展,如何系统性地评估模型在多元任务上的综合能力成为学界与工业界关注的焦点。Open LLM Leaderboard作为HuggingFace社区发起的一项标准化评测平台,旨在通过统一的评估框架对开放语言模型进行横向比较。该数据集记录了韩国团队yanolja于2024年2月9日提交的KoSOLAR-10.7B-v0.3模型的评测结果,该模型基于SOLAR架构进行韩语优化,参数量达10.7B。评测覆盖了ARC挑战集、HellaSwag、MMLU多学科知识、TruthfulQA、Winogrande及GSM8K等63项任务,全面考察模型的常识推理、知识储备、事实一致性及数学能力。这一评测不仅为韩语大模型的性能提供了重要基准,也推动了多语言模型评估体系的完善。
当前挑战
该数据集所解决的领域问题在于,当前语言模型评测常因任务单一或评估标准不统一而难以反映模型真实能力,Open LLM Leaderboard通过整合多样化的基准测试,为模型提供了全面而公平的竞技场。然而,构建过程中面临显著挑战:首先,模型在不同任务上的表现波动较大,如MMLU中抽象代数仅29%准确率,而美国外交政策达91%,揭示模型知识分布不均衡的问题。其次,评测结果依赖于特定提示格式(如5-shot示例),不同设置可能导致性能差异,增加了结果复现的难度。此外,数据集仅包含单次运行结果,缺乏多次实验的统计稳定性分析,使得误差评估的可靠性受限。最后,韩语优化模型在英语为主的基准测试中可能面临语言迁移偏差,影响评测的生态效度。
常用场景
经典使用场景
该数据集是Open LLM Leaderboard在评估韩国AI公司yanolja开发的KoSOLAR-10.7B-v0.3模型时自动生成的评测结果数据集。它涵盖了63个配置项,对应了包括ARC-Challenge、HellaSwag、MMLU(涵盖57个学科子集)、TruthfulQA、Winogrande和GSM8K在内的经典自然语言理解与推理任务。这一数据集最经典的使用场景在于为研究者提供标准化、细粒度的模型性能基准,尤其适用于对比不同规模、不同语种(如韩语优化模型)的大语言模型在通用知识与推理能力上的表现差异。通过加载特定任务配置和运行时间戳,可以复现特定时间点的评估结果,从而支持模型迭代过程中的纵向性能追踪。
衍生相关工作
该数据集衍生了一系列关于模型评测方法论与性能优化的经典工作。一方面,它作为Open LLM Leaderboard的组成部分,推动了社区对评测标准化流程的探讨,例如后续工作提出了基于此数据格式的多轮评测聚合方法以及针对数据泄露的检测技术。另一方面,KoSOLAR-10.7B-v0.3模型本身基于SOLAR架构进行韩语优化,其在该数据集上的表现(如MMLU平均64.46%准确率)催生了多篇关于跨语言迁移学习与模型高效微调的研究。这些工作进一步探索了如何通过领域自适应训练提升特定语言模型的通用能力,丰富了低资源语言模型的评估与优化理论体系。
数据集最近研究
最新研究方向
在大型语言模型(LLM)评估领域,Open LLM Leaderboard已成为衡量模型综合能力的重要基准平台。该数据集记录了yanolja/KoSOLAR-10.7B-v0.3模型在63项任务上的详尽评估结果,涵盖ARC挑战赛、HellaSwag常识推理、GSM8K数学问题及MMLU多学科知识等前沿测试。当前研究方向聚焦于通过细粒度任务分解与标准化评估流程,揭示模型在推理、知识记忆与语言理解等维度上的真实表现。这一评估体系不仅为韩语等非英语LLM的性能对标提供了关键参考,更推动了多语言模型在开放基准下的透明化竞争,其影响已延伸至模型迭代优化与跨语言能力比较的热点议题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作