five

quantized-llama-3.1-leaderboard-v2-evals

收藏
Hugging Face2024-10-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/neuralmagic/quantized-llama-3.1-leaderboard-v2-evals
下载链接
链接失效反馈
官方服务:
资源简介:
Meta-Llama-3.1-405B-Instruct数据集包含多个配置和对应的数据文件,每个配置针对特定的任务或类别,如布尔表达式、因果判断、日期理解等。数据文件为JSONL格式,文件名根据任务和创建日期命名。该数据集旨在用于评估和训练模型在各种推理和理解任务上的表现。

The Meta-Llama-3.1-405B-Instruct dataset includes multiple configurations and their corresponding data files, with each configuration tailored for specific tasks or categories such as boolean expressions, causal judgment, date understanding, and the like. All data files are stored in JSONL format, and their filenames are designated based on the associated task and creation date. This dataset is designed for evaluating and training models' performance across various reasoning and comprehension tasks.
提供机构:
Neural Magic
创建时间:
2024-10-10
原始信息汇总

数据集概述

数据集名称

  • 名称: neuralmagic/quantized-llama-3.1-leaderboard-v2-evals

数据集配置

  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_boolean_expressions

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_boolean_expressions_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_causal_judgement

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_causal_judgement_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_date_understanding

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_date_understanding_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_disambiguation_qa

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_disambiguation_qa_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_formal_fallacies

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_formal_fallacies_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_geometric_shapes

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_geometric_shapes_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_hyperbaton

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_hyperbaton_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_five_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_five_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_seven_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_seven_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_logical_deduction_three_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_logical_deduction_three_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_movie_recommendation

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_movie_recommendation_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_navigate

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_navigate_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_object_counting

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_object_counting_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_penguins_in_a_table

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_penguins_in_a_table_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_reasoning_about_colored_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_reasoning_about_colored_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_ruin_names

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_ruin_names_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_salient_translation_error_detection

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_salient_translation_error_detection_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_snarks

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_snarks_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_sports_understanding

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_sports_understanding_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_temporal_sequences

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_temporal_sequences_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_five_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_five_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_seven_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_seven_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_tracking_shuffled_objects_three_objects

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_tracking_shuffled_objects_three_objects_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__bbh_web_of_lies

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_bbh_web_of_lies_2024-10-02T21-45-34.023709.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_diamond

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_diamond_2024-10-01T12-50-43.056045.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_extended

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_extended_2024-10-01T12-50-43.056045.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__gpqa_main

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_gpqa_main_2024-10-01T12-50-43.056045.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__ifeval

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_ifeval_2024-10-01T23-14-30.687440.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_algebra_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_algebra_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_counting_and_prob_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_counting_and_prob_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_geometry_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_geometry_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_intermediate_algebra_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_intermediate_algebra_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_num_theory_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_num_theory_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_prealgebra_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_prealgebra_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__math_precalculus_hard

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_math_precalculus_hard_2024-10-01T13-51-20.880458.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__musr_murder_mysteries

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_murder_mysteries_2024-10-01T14-11-49.756019.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__musr_object_placements

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_object_placements_2024-10-01T14-11-49.756019.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct__musr_team_allocation

    • 数据文件: Meta-Llama-3.1-405B-Instruct/samples_leaderboard_musr_team_allocation_2024-10-01T14-11-49.756019.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_boolean_expressions

    • 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_boolean_expressions_2024-09-27T20-07-05.024816.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_causal_judgement

    • 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_causal_judgement_2024-09-27T20-07-05.024816.jsonl
  • 配置名称: Meta-Llama-3.1-405B-Instruct-W4A16__bbh_date_understanding

    • 数据文件: Meta-Llama-3.1-405B-Instruct-W4A16/samples_leaderboard_bbh_date_understanding_2024-09-27T20-07-05.024816.jsonl
搜集汇总
数据集介绍
main_image_url
构建方式
quantized-llama-3.1-leaderboard-v2-evals数据集的构建基于Meta-Llama-3.1-405B-Instruct模型的多任务评估框架。该数据集通过多个配置文件(configs)组织,每个配置文件对应一个特定的任务评估,涵盖逻辑推理、数学问题、语言理解等多个领域。数据以JSON Lines格式存储,每个文件包含模型在特定任务上的评估结果,确保了数据的结构化和可扩展性。
特点
该数据集的特点在于其广泛的任务覆盖范围,涵盖了从布尔表达式、因果判断到几何形状、时间序列等多样化的任务类型。每个任务均通过Meta-Llama-3.1-405B-Instruct模型进行评估,并提供了详细的量化结果。数据集的高精度和多样性使其成为评估大语言模型多任务性能的理想选择。
使用方法
使用该数据集时,用户可通过加载不同的配置文件来访问特定任务的评估结果。每个JSON Lines文件包含模型在任务中的表现数据,用户可通过解析这些文件进行进一步的分析或模型性能对比。该数据集适用于研究大语言模型的多任务学习能力、任务泛化性以及量化评估方法的开发。
背景与挑战
背景概述
quantized-llama-3.1-leaderboard-v2-evals数据集是由Meta公司于2024年推出的,旨在评估其最新的大型语言模型Meta-Llama-3.1-405B-Instruct在不同任务上的表现。该数据集涵盖了多个复杂的推理任务,包括布尔表达式、因果判断、日期理解、逻辑推理等,旨在全面测试模型在多样化场景下的推理能力。Meta-Llama-3.1-405B-Instruct作为当前最先进的语言模型之一,其量化版本(如W4A16和W8A8-FP8)也在该数据集中进行了评估,以探索模型在资源受限环境下的性能表现。该数据集的发布为自然语言处理领域的研究者提供了一个标准化的基准,推动了模型推理能力的进一步提升。
当前挑战
quantized-llama-3.1-leaderboard-v2-evals数据集面临的主要挑战包括两个方面。首先,该数据集旨在解决复杂推理任务的评估问题,这些任务通常需要模型具备高度的逻辑推理能力和上下文理解能力。然而,现有模型在处理多步骤推理、抽象概念理解以及长文本依赖时仍存在显著不足,尤其是在量化版本中,模型的性能可能因精度损失而进一步下降。其次,数据集的构建过程中也面临挑战,例如如何设计多样化的任务以覆盖广泛的推理场景,同时确保任务的难度适中且具有代表性。此外,量化模型的评估需要精确控制计算资源的消耗与模型性能之间的平衡,这对数据集的构建和评估方法提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,quantized-llama-3.1-leaderboard-v2-evals数据集被广泛用于评估大型语言模型在复杂推理任务中的表现。该数据集涵盖了从布尔表达式、因果判断到几何形状理解等多种任务,能够全面测试模型在逻辑推理、数学计算和语言理解等方面的能力。通过该数据集,研究人员可以深入分析模型在不同任务中的表现差异,从而优化模型架构和训练策略。
衍生相关工作
quantized-llama-3.1-leaderboard-v2-evals数据集催生了一系列相关研究工作,特别是在模型压缩和量化领域。许多研究基于该数据集探索了如何在保持模型性能的同时降低计算资源消耗,例如通过量化技术减少模型参数量。此外,该数据集还推动了多任务学习和迁移学习的研究,为开发更通用、更高效的模型提供了重要参考。
数据集最近研究
最新研究方向
在大型语言模型(LLM)领域,量化技术的研究正逐渐成为热点。Meta-Llama-3.1-405B-Instruct模型的量化版本(如W4A16和W8A8-FP8)通过减少模型的计算和存储需求,显著提升了推理效率。最新研究聚焦于量化对模型性能的影响,尤其是在复杂任务如逻辑推理、数学问题求解和自然语言理解中的表现。通过量化技术,研究人员能够在保持模型性能的同时,显著降低硬件资源消耗,为边缘计算和实时应用提供了新的可能性。这一方向的研究不仅推动了模型部署的普及化,也为未来更高效的AI系统设计奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作