open-llm-leaderboard-old/details_Writer__palmyra-med-20b

Name: open-llm-leaderboard-old/details_Writer__palmyra-med-20b
Creator: open-llm-leaderboard-old
Published: 2023-10-27 07:44:04
License: 暂无描述

Hugging Face2023-10-27 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Writer__palmyra-med-20b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型Writer/palmyra-med-20b时自动生成的，包含64个配置，每个配置对应一个评估任务。数据集由3次运行生成，每次运行的结果作为一个特定的split，split的名称是运行的时间戳。train split始终指向最新的结果。此外，还有一个名为results的配置，存储了所有运行的聚合结果，用于在Open LLM Leaderboard上计算和显示聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集名称

Evaluation run of Writer/palmyra-med-20b

数据集描述

该数据集是在对模型 Writer/palmyra-med-20b 进行评估运行期间自动创建的。

数据集组成

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 3 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Writer__palmyra-med-20b", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_09_11T17_21_21.677448
  - 路径: **/details_harness|arc:challenge|25_2023-09-11T17-21-21.677448.parquet
- 分割: 2023_09_12T21_53_25.718910
  - 路径: **/details_harness|arc:challenge|25_2023-09-12T21-53-25.718910.parquet
- 分割: latest
  - 路径: **/details_harness|arc:challenge|25_2023-09-12T21-53-25.718910.parquet
harness_drop_3
- 分割: 2023_10_27T07_43_51.319096
  - 路径: **/details_harness|drop|3_2023-10-27T07-43-51.319096.parquet
- 分割: latest
  - 路径: **/details_harness|drop|3_2023-10-27T07-43-51.319096.parquet
harness_gsm8k_5
- 分割: 2023_10_27T07_43_51.319096
  - 路径: **/details_harness|gsm8k|5_2023-10-27T07-43-51.319096.parquet
- 分割: latest
  - 路径: **/details_harness|gsm8k|5_2023-10-27T07-43-51.319096.parquet
harness_hellaswag_10
- 分割: 2023_09_11T17_21_21.677448
  - 路径: **/details_harness|hellaswag|10_2023-09-11T17-21-21.677448.parquet
- 分割: 2023_09_12T21_53_25.718910
  - 路径: **/details_harness|hellaswag|10_2023-09-12T21-53-25.718910.parquet
- 分割: latest
  - 路径: **/details_harness|hellaswag|10_2023-09-12T21-53-25.718910.parquet
harness_hendrycksTest_5
- 分割: 2023_09_11T17_21_21.677448
  - 路径:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-11T17-21-21.677448.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-09-11T17-21-21.677448.parquet
    - ... (其他路径省略)
- 分割: 2023_09_12T21_53_25.718910
  - 路径:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-12T21-53-25.718910.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-09-12T21-53-25.718910.parquet
    - ... (其他路径省略)
- 分割: latest
  - 路径:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-12T21-53-25.718910.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-09-12T21-53-25.718910.parquet
    - ... (其他路径省略)

搜集汇总

数据集介绍

构建方式

在大型语言模型的评估体系中，Open LLM Leaderboard 为模型性能的横向对比提供了标准化平台。该数据集正是为记录 Writer/palmyra-med-20b 模型在 Leaderboard 上的评估细节而自动生成的。其构建过程依托于三次独立的评估运行，每次运行的结果被存储为独立的 split，并以运行时间戳作为 split 名称，而 'latest' split 则始终指向最新一次评估的数据。数据集包含 64 个配置，每个配置对应一项评估任务，另有一个名为 'results' 的独立配置专门用于汇总所有任务的聚合指标，为 Leaderboard 上的度量计算与展示提供数据支撑。

特点

该数据集的核心特色在于其精细化的层次结构与时间序列追踪能力。通过将每次评估运行的结果切分为独立的 split，研究者能够回溯模型在不同时间点的性能演变，实现纵向对比分析。每个任务配置下均存储了详细的模型输出与评测指标，如精确匹配率（em）和 F1 分数等，为深入诊断模型在特定任务上的表现提供了丰富素材。此外，'results' 配置的引入极大简化了整体性能的获取流程，使得从海量细节中提炼关键结论变得高效而直观。

使用方法

研究者可通过 HuggingFace 的 datasets 库便捷地加载与使用该数据集。具体而言，利用 load_dataset 函数，指定数据集名称与目标任务配置（如 'harness_winogrande_5'），再通过 split 参数选择特定运行或最新结果，即可获取相应的评估细节。例如，加载 'train' split 将自动指向最新一次运行的数据，便于快速复现当前评测结果。这种灵活的设计支持从单一任务的微观分析到多任务聚合的宏观洞察，为模型性能的全面评估提供了坚实工具基础。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的时代，如何系统、公正地评估模型性能成为推动领域进步的关键。由HuggingFace团队于2023年发起的Open LLM Leaderboard项目，旨在构建一个标准化、可复现的模型评估平台，以量化不同模型在多种自然语言处理任务上的表现。该数据集即为对Writer公司开发的医学领域专用模型Palmyra-Med-20B进行评测的产物，创建于2023年9月至10月间。核心研究问题聚焦于评估这一20B参数规模的医学语言模型在通用与专业任务上的综合能力，涵盖常识推理、数学推理、阅读理解及多领域知识问答等64个配置任务。该评测数据不仅为医学AI模型的可比性提供了重要基准，也促进了开源社区对领域特化模型能力的深入理解，对后续医学LLM的研发方向产生了深远影响。

当前挑战

该数据集所解决的领域问题在于，医学语言模型虽具备专业潜力，但缺乏统一、多维度的性能评估框架。Palmyra-Med-20B面临的挑战包括：其一，在通用任务上表现欠佳，如在GSM8K数学推理任务中准确率仅约2.65%，表明模型对符号推理与多步计算的泛化能力薄弱；其二，在阅读理解任务DROP上，精确匹配率仅5.85%，反映出模型在复杂文本中提取精确信息的能力存在显著瓶颈；其三，构建过程中需协调多轮评测运行（2023年9月至10月间共3次），确保不同时间点的结果可追溯且保持一致性，同时处理来自HellaSwag、ARC、MMLU等数十个异构评测任务的数据聚合与标准化存储，对数据管道的鲁棒性提出了严苛要求。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard的评测结果存储库，承载着对Writer/palmyra-med-20b模型在64个不同任务上的性能记录。研究人员可借此深入分析模型在ARC挑战、HellaSwag常识推理、GSM8K数学问题求解以及WinoGrande代词消解等经典基准测试中的表现。通过加载特定配置如harness_winogrande_5，学者能够复现评估流程并对比不同时间戳下的运行结果，从而追踪模型能力随迭代的演变轨迹。这种细粒度的任务级评测数据为理解模型在自然语言理解、推理和生成方面的优劣提供了坚实依据。

实际应用

在工业部署场景中，该数据集为模型选型与优化提供了决策支持。开发者可通过分析palmyra-med-20b在医学知识相关任务上的表现，评估其作为医疗辅助系统的适用性。数据集涵盖的HendrycksTest子集包含临床知识、医学遗传学等专业领域，便于检验模型在专业问答中的可靠性。同时，GSM8K和DROP等任务的结果可指导金融、教育等需要数学推理能力的应用场景。企业能够依据这些细粒度评估数据，筛选出最适合特定业务需求的模型版本，或针对性地进行领域微调。

衍生相关工作

该数据集衍生了一系列关于语言模型评估方法论的研究。其多任务、多时间戳的架构启发了后续工作如LM Evaluation Harness的标准化流程改进。研究者基于此类数据开发了模型性能衰退检测工具，通过对比不同运行结果识别训练过程中的灾难性遗忘现象。此外，数据集中HendrycksTest的57个学科子集催生了跨领域知识图谱的构建工作，用于分析模型在医学、法律等专业领域的知识覆盖度。这些衍生研究共同推动了从单一指标评价向多维能力剖析的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集