quantized-llama-3.1-leaderboard-v2-evals

Name: quantized-llama-3.1-leaderboard-v2-evals
Creator: Neural Magic
Published: 2024-10-10 22:23:55
License: 暂无描述

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neuralmagic/quantized-llama-3.1-leaderboard-v2-evals

下载链接

链接失效反馈

官方服务：

资源简介：

Meta-Llama-3.1-405B-Instruct数据集包含多个配置和对应的数据文件，每个配置针对特定的任务或类别，如布尔表达式、因果判断、日期理解等。数据文件为JSONL格式，文件名根据任务和创建日期命名。该数据集旨在用于评估和训练模型在各种推理和理解任务上的表现。

The Meta-Llama-3.1-405B-Instruct dataset includes multiple configurations and their corresponding data files, with each configuration tailored for specific tasks or categories such as boolean expressions, causal judgment, date understanding, and the like. All data files are stored in JSONL format, and their filenames are designated based on the associated task and creation date. This dataset is designed for evaluating and training models' performance across various reasoning and comprehension tasks.

提供机构：

Neural Magic

创建时间：

2024-10-10

原始信息汇总

数据集概述

数据集名称

名称: neuralmagic/quantized-llama-3.1-leaderboard-v2-evals

数据集配置

配置名称: Meta-Llama-3.1-405B-Instruct__bbh_boolean_expressions
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_boolean_expressions_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_causal_judgement
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_causal_judgement_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_date_understanding
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_date_understanding_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_disambiguation_qa
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_disambiguation_qa_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_formal_fallacies
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_formal_fallacies_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_geometric_shapes
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_geometric_shapes_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_hyperbaton
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_hyperbaton_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_five_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_five_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_seven_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_seven_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_three_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_three_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_movie_recommendation
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_movie_recommendation_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_navigate
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_navigate_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_object_counting
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_object_counting_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_penguins_in_a_table
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_penguins_in_a_table_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_reasoning_about_colored_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_reasoning_about_colored_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_ruin_names
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_ruin_names_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_salient_translation_error_detection
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_salient_translation_error_detection_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_snarks
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_snarks_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_sports_understanding
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_sports_understanding_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_temporal_sequences
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_temporal_sequences_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_five_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_five_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_seven_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_seven_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_three_objects
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_three_objects_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__bbh_web_of_lies
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_web_of_lies_2024-10-02T21-45-34.023709.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_diamond
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_diamond_2024-10-01T12-50-43.056045.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_extended
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_extended_2024-10-01T12-50-43.056045.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_main
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_main_2024-10-01T12-50-43.056045.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__ifeval
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_ifeval_2024-10-01T23-14-30.687440.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_algebra_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_algebra_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_counting_and_prob_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_counting_and_prob_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_geometry_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_geometry_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_intermediate_algebra_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_intermediate_algebra_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_num_theory_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_num_theory_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_prealgebra_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_prealgebra_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__math_precalculus_hard
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_precalculus_hard_2024-10-01T13-51-20.880458.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__musr_murder_mysteries
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_murder_mysteries_2024-10-01T14-11-49.756019.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__musr_object_placements
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_object_placements_2024-10-01T14-11-49.756019.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct__musr_team_allocation
- 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_team_allocation_2024-10-01T14-11-49.756019.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_boolean_expressions
- 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_boolean_expressions_2024-09-27T20-07-05.024816.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_causal_judgement
- 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_causal_judgement_2024-09-27T20-07-05.024816.jsonl
配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_date_understanding
- 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_date_understanding_2024-09-27T20-07-05.024816.jsonl

搜集汇总

数据集介绍

构建方式

quantized-llama-3.1-leaderboard-v2-evals数据集的构建基于Meta-Llama-3.1-405B-Instruct模型的多任务评估框架。该数据集通过多个配置文件（configs）组织，每个配置文件对应一个特定的任务评估，涵盖逻辑推理、数学问题、语言理解等多个领域。数据以JSON Lines格式存储，每个文件包含模型在特定任务上的评估结果，确保了数据的结构化和可扩展性。

特点

该数据集的特点在于其广泛的任务覆盖范围，涵盖了从布尔表达式、因果判断到几何形状、时间序列等多样化的任务类型。每个任务均通过Meta-Llama-3.1-405B-Instruct模型进行评估，并提供了详细的量化结果。数据集的高精度和多样性使其成为评估大语言模型多任务性能的理想选择。

使用方法

使用该数据集时，用户可通过加载不同的配置文件来访问特定任务的评估结果。每个JSON Lines文件包含模型在任务中的表现数据，用户可通过解析这些文件进行进一步的分析或模型性能对比。该数据集适用于研究大语言模型的多任务学习能力、任务泛化性以及量化评估方法的开发。

背景与挑战

背景概述

quantized-llama-3.1-leaderboard-v2-evals数据集是由Meta公司于2024年推出的，旨在评估其最新的大型语言模型Meta-Llama-3.1-405B-Instruct在不同任务上的表现。该数据集涵盖了多个复杂的推理任务，包括布尔表达式、因果判断、日期理解、逻辑推理等，旨在全面测试模型在多样化场景下的推理能力。Meta-Llama-3.1-405B-Instruct作为当前最先进的语言模型之一，其量化版本（如W4A16和W8A8-FP8）也在该数据集中进行了评估，以探索模型在资源受限环境下的性能表现。该数据集的发布为自然语言处理领域的研究者提供了一个标准化的基准，推动了模型推理能力的进一步提升。

当前挑战

quantized-llama-3.1-leaderboard-v2-evals数据集面临的主要挑战包括两个方面。首先，该数据集旨在解决复杂推理任务的评估问题，这些任务通常需要模型具备高度的逻辑推理能力和上下文理解能力。然而，现有模型在处理多步骤推理、抽象概念理解以及长文本依赖时仍存在显著不足，尤其是在量化版本中，模型的性能可能因精度损失而进一步下降。其次，数据集的构建过程中也面临挑战，例如如何设计多样化的任务以覆盖广泛的推理场景，同时确保任务的难度适中且具有代表性。此外，量化模型的评估需要精确控制计算资源的消耗与模型性能之间的平衡，这对数据集的构建和评估方法提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，quantized-llama-3.1-leaderboard-v2-evals数据集被广泛用于评估大型语言模型在复杂推理任务中的表现。该数据集涵盖了从布尔表达式、因果判断到几何形状理解等多种任务，能够全面测试模型在逻辑推理、数学计算和语言理解等方面的能力。通过该数据集，研究人员可以深入分析模型在不同任务中的表现差异，从而优化模型架构和训练策略。

衍生相关工作

quantized-llama-3.1-leaderboard-v2-evals数据集催生了一系列相关研究工作，特别是在模型压缩和量化领域。许多研究基于该数据集探索了如何在保持模型性能的同时降低计算资源消耗，例如通过量化技术减少模型参数量。此外，该数据集还推动了多任务学习和迁移学习的研究，为开发更通用、更高效的模型提供了重要参考。

数据集最近研究