DataDecide-eval-instances
收藏Hugging Face2025-03-11 更新2025-03-12 收录
下载链接:
https://huggingface.co/datasets/allenai/DataDecide-eval-instances
下载链接
链接失效反馈官方服务:
资源简介:
DataDecide评估实例数据集包含来自DataDecide项目(即将发表的论文)的单个评估实例数据。它展示了标准评估基准在许多模型设计维度上的变化。数据集包含了一系列OLMo风格模型的评估,这些模型使用了25种不同的训练数据配置,9种不同大小(参数计数为4M、20M、60M、90M、150M、300M、750M和1B),3个初始随机种子,以及每个模型多个训练检查点(大小约为10到50个,取决于模型大小)。评估使用了OLMES论文中的10个不同评估任务,采用cloze格式:ARC挑战、ARC简单、BoolQ、CSQA、HellaSwag、MMLU(57个子任务)、OBQA、PIQA、Social IQa和Winogrande。此外,还有4种不同的评估方法用于对模型答案进行排名。总共有大约150万个模型检查点和5亿个单独的评估实例。数据集采用cloze格式(而不是“A/B/C/D”多项选择格式),因为这些模型通常太小,无法掌握后者。数据集在解压后的组织结构如下:models/目录下,每个模型名代表一个训练混合使用,例如“dclm-baseline”,在每个模型目录下,有不同的大小目录,例如“150M”,在每个大小目录下,有不同种子目录,例如“seed-14”,在每个种子目录下,有不同步骤的模型检查点,例如“step-25000”,每个检查点目录下包含对应任务的metric和prediction文件。此外,数据集还包含了一个summary-metrics.jsonl文件,其中包含了每个任务和模型配置的汇总指标。requests目录包含了每个实例使用的确切模型请求。
提供机构:
Allen Institute for AI
创建时间:
2025-03-10
搜集汇总
数据集介绍

构建方式
DataDecide-eval-instances数据集汇聚了DataDecide项目中对各类模型设计的评估实例,展示了标准评估基准在众多设计维度上的变化。该数据集通过组合不同的训练数据配置、模型大小、随机种子、训练检查点以及多种评估任务,构建了一个包含约150万模型检查点和5亿个独立评估实例的庞大集合。
特点
该数据集的特点在于其评估的全面性与细致性,涵盖了不同参数规模的OLMo风格模型,采用了10种不同的评估任务,并提供了四种不同的答案排序评估方法。此外,数据集使用了cloze格式代替传统的“A/B/C/D”多项选择格式,以适应模型的实际能力。数据组织结构清晰,便于访问和分析。
使用方法
用户可通过数据集提供的目录结构访问不同模型和任务的评估结果。具体使用时,可以从`sample-evals`目录中查看各个任务的示例,通过`-metrics.json`文件获取任务的整体指标,而`-predictions.jsonl`文件则包含了每个实例的预测信息。此外,`summary-metrics.jsonl`文件为每个任务和模型配置提供了汇总指标,而`requests`目录保存了每个实例的确切模型请求,方便用户进行复现和研究。
背景与挑战
背景概述
DataDecide-eval-instances数据集源自DataDecide项目,该项目旨在探索模型设计在多个维度上对标准评估基准的影响。该数据集包含了经过不同训练数据配置、不同大小参数、不同随机种子以及多个训练检查点的OLMo风格模型的评估结果。这些评估结果覆盖了OLMES论文中提出的10项不同的评估任务,并且采用了cloze格式,以适应模型的特性。该数据集的创建,为模型评估领域带来了新的视角和丰富的实验数据,对于推动相关研究具有重要的参考价值。
当前挑战
DataDecide-eval-instances数据集在构建过程中面临了多项挑战。首先,如何有效组织大规模的模型评估数据,确保数据的一致性和可访问性是一个挑战。其次,由于采用了cloze格式而非传统的多选格式,模型在处理不同任务时可能存在适应性难题。此外,数据集需要支持多种评估方法,以便对模型进行全面的性能评估,这也增加了数据集构建的复杂性。
常用场景
经典使用场景
在自然语言处理领域,尤其是模型评估与比较研究中,DataDecide-eval-instances数据集提供了丰富的个体评估实例,展现了不同模型设计维度下标准评估基准的变化。该数据集的经典使用场景在于,研究者可通过其提供的多样模型配置和评估任务,对OLMo-style模型进行细致的性能评估与对比分析,进而优化模型设计和提高预测准确性。
解决学术问题
该数据集解决了模型评估标准一致性不足、模型性能比较维度单一等问题。通过包含多种训练数据配置、不同规模参数、初始随机种子以及多个训练检查点,DataDecide-eval-instances使得研究者能够全面评估模型在不同条件下的表现,为学术研究提供了深入理解和比较不同模型性能的可靠依据。
衍生相关工作
基于DataDecide-eval-instances数据集,已衍生出多项相关工作,如对模型在不同任务和不同规模下的表现进行分析,以及探索评估方法对模型性能排名的影响等。这些研究进一步拓宽了数据集的应用范围,为自然语言处理领域的研究提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



