DataDecide-eval-instances

Name: DataDecide-eval-instances
Creator: Allen Institute for AI
Published: 2025-03-11 05:09:35
License: 暂无描述

Hugging Face2025-03-11 更新2025-03-12 收录

下载链接：

https://huggingface.co/datasets/allenai/DataDecide-eval-instances

下载链接

链接失效反馈

官方服务：

资源简介：

DataDecide评估实例数据集包含来自DataDecide项目（即将发表的论文）的单个评估实例数据。它展示了标准评估基准在许多模型设计维度上的变化。数据集包含了一系列OLMo风格模型的评估，这些模型使用了25种不同的训练数据配置，9种不同大小（参数计数为4M、20M、60M、90M、150M、300M、750M和1B），3个初始随机种子，以及每个模型多个训练检查点（大小约为10到50个，取决于模型大小）。评估使用了OLMES论文中的10个不同评估任务，采用cloze格式：ARC挑战、ARC简单、BoolQ、CSQA、HellaSwag、MMLU（57个子任务）、OBQA、PIQA、Social IQa和Winogrande。此外，还有4种不同的评估方法用于对模型答案进行排名。总共有大约150万个模型检查点和5亿个单独的评估实例。数据集采用cloze格式（而不是“A/B/C/D”多项选择格式），因为这些模型通常太小，无法掌握后者。数据集在解压后的组织结构如下：models/目录下，每个模型名代表一个训练混合使用，例如“dclm-baseline”，在每个模型目录下，有不同的大小目录，例如“150M”，在每个大小目录下，有不同种子目录，例如“seed-14”，在每个种子目录下，有不同步骤的模型检查点，例如“step-25000”，每个检查点目录下包含对应任务的metric和prediction文件。此外，数据集还包含了一个summary-metrics.jsonl文件，其中包含了每个任务和模型配置的汇总指标。requests目录包含了每个实例使用的确切模型请求。

提供机构：

Allen Institute for AI

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

DataDecide-eval-instances数据集汇聚了DataDecide项目中对各类模型设计的评估实例，展示了标准评估基准在众多设计维度上的变化。该数据集通过组合不同的训练数据配置、模型大小、随机种子、训练检查点以及多种评估任务，构建了一个包含约150万模型检查点和5亿个独立评估实例的庞大集合。

特点

该数据集的特点在于其评估的全面性与细致性，涵盖了不同参数规模的OLMo风格模型，采用了10种不同的评估任务，并提供了四种不同的答案排序评估方法。此外，数据集使用了cloze格式代替传统的“A/B/C/D”多项选择格式，以适应模型的实际能力。数据组织结构清晰，便于访问和分析。

使用方法

用户可通过数据集提供的目录结构访问不同模型和任务的评估结果。具体使用时，可以从`sample-evals`目录中查看各个任务的示例，通过`-metrics.json`文件获取任务的整体指标，而`-predictions.jsonl`文件则包含了每个实例的预测信息。此外，`summary-metrics.jsonl`文件为每个任务和模型配置提供了汇总指标，而`requests`目录保存了每个实例的确切模型请求，方便用户进行复现和研究。

背景与挑战

背景概述

DataDecide-eval-instances数据集源自DataDecide项目，该项目旨在探索模型设计在多个维度上对标准评估基准的影响。该数据集包含了经过不同训练数据配置、不同大小参数、不同随机种子以及多个训练检查点的OLMo风格模型的评估结果。这些评估结果覆盖了OLMES论文中提出的10项不同的评估任务，并且采用了cloze格式，以适应模型的特性。该数据集的创建，为模型评估领域带来了新的视角和丰富的实验数据，对于推动相关研究具有重要的参考价值。

当前挑战

DataDecide-eval-instances数据集在构建过程中面临了多项挑战。首先，如何有效组织大规模的模型评估数据，确保数据的一致性和可访问性是一个挑战。其次，由于采用了cloze格式而非传统的多选格式，模型在处理不同任务时可能存在适应性难题。此外，数据集需要支持多种评估方法，以便对模型进行全面的性能评估，这也增加了数据集构建的复杂性。

常用场景

经典使用场景

在自然语言处理领域，尤其是模型评估与比较研究中，DataDecide-eval-instances数据集提供了丰富的个体评估实例，展现了不同模型设计维度下标准评估基准的变化。该数据集的经典使用场景在于，研究者可通过其提供的多样模型配置和评估任务，对OLMo-style模型进行细致的性能评估与对比分析，进而优化模型设计和提高预测准确性。

解决学术问题

该数据集解决了模型评估标准一致性不足、模型性能比较维度单一等问题。通过包含多种训练数据配置、不同规模参数、初始随机种子以及多个训练检查点，DataDecide-eval-instances使得研究者能够全面评估模型在不同条件下的表现，为学术研究提供了深入理解和比较不同模型性能的可靠依据。

衍生相关工作

基于DataDecide-eval-instances数据集，已衍生出多项相关工作，如对模型在不同任务和不同规模下的表现进行分析，以及探索评估方法对模型性能排名的影响等。这些研究进一步拓宽了数据集的应用范围，为自然语言处理领域的研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集