DOVE (Dataset Of Variation Evaluation)

Name: DOVE (Dataset Of Variation Evaluation)
Creator: 耶路撒冷希伯来大学, IBM Research AI, 麻省理工学院, 技术学院-以色列理工学院, Allen Institute for AI
Published: 2025-03-04 21:00:55
License: 暂无描述

arXiv2025-03-04 更新2025-03-06 收录

下载链接：

https://slab-nlp.github.io/DOVE

下载链接

链接失效反馈

官方服务：

资源简介：

DOVE是一个大规模的多维度预测数据集，由耶路撒冷希伯来大学等机构创建，旨在评估大型语言模型对提示变化的敏感性。该数据集包含超过2.5亿条提示变化和模型输出，涵盖了多种评价基准的提示扰动。数据集整合了78个不同数据来源的实例，通过五个维度（枚举器、分隔符、选项顺序、表述和示例）进行扰动，以探究不同提示维度对模型性能的影响。

DOVE is a large-scale multi-dimensional prediction dataset developed by institutions including the Hebrew University of Jerusalem and others, which aims to evaluate the sensitivity of large language models to prompt variations. This dataset contains over 250 million prompt variations and corresponding model outputs, covering prompt perturbations across various evaluation benchmarks. It integrates instances from 78 distinct data sources, and conducts perturbations over five dimensions (enumerator, delimiter, option order, wording, and examples) to investigate the effects of different prompt dimensions on model performance.

提供机构：

耶路撒冷希伯来大学, IBM Research AI, 麻省理工学院, 技术学院-以色列理工学院, Allen Institute for AI

创建时间：

2025-03-03

搜集汇总

数据集介绍

构建方式

DOVE数据集通过在多个维度上对现有评估基准的提示进行扰动来构建。它涵盖了来自MMLU、ARC、HellaSwag等78个不同数据集的随机选取的100个实例，并沿五个维度（枚举器、分隔符、选择顺序、措辞和演示）对这些实例进行了广泛的意图保持提示创建。每个维度都有多个可能的值，例如枚举器维度可能包含罗马数字、数字等。通过这些维度的笛卡尔积，每个样本产生了超过6.5K个扰动。DOVE记录了完整的LLM响应、模型的日志概率和自动二进制分数，使得研究人员能够从整体角度评估LLM的敏感性。

使用方法

DOVE数据集的使用方法包括但不限于以下几个方面：首先，研究人员可以利用DOVE来评估LLM在不同提示变化下的表现，以发现模型在特定任务上的强项和弱点。其次，DOVE可用于探索有效的提示选择方法，以在有限的推理预算下优化模型性能。此外，DOVE还可用作基准测试，以比较不同LLM模型的性能。最后，DOVE的公开和开放性质鼓励社区贡献数据，以扩大其覆盖范围并推动LLM评估研究的发展。

背景与挑战

背景概述

DOVE（Dataset Of Variation Evaluation）是一个大规模的多维预测数据集，旨在对大型语言模型（LLM）进行有意义的评估。该数据集由希伯来大学和IBM研究AI团队共同创建，并得到艾伦人工智能研究所的支持。DOVE的创建背景源于对LLMs敏感性的发现，这些模型对各种任意提示维度非常敏感，包括分隔符类型、答案枚举器、指令措辞等。这种敏感性对有意义的评估构成了挑战，因为传统的单一提示评估实践可能无法准确反映LLMs的性能。DOVE通过包含各种评估基准的提示扰动，从整体角度考察LLMs的敏感性，并评估沿各种维度扰动的联合效应，每个实例产生数千个扰动。DOVE包含超过2.5亿个提示扰动和模型输出，旨在促进社区对有意义的、稳健的和高效的评估方法的共同努力。

当前挑战

DOVE数据集相关的挑战主要包括：1) LLMs对提示扰动的敏感性。研究发现，LLMs对提示的细微变化非常敏感，这导致性能的大幅变化，从而影响了评估的可靠性和通用性。2) 构建大规模评估数据集的挑战。DOVE数据集的创建需要大量的计算资源，包括高性能的GPU和云计算服务，这对于资源有限的团队来说是一个挑战。3) 提示选择的优化。在实际应用中，选择最佳的提示以优化性能是一个难题，因为评估所有可能的提示是不切实际的。DOVE数据集提供了一个平台，用于探索如何高效地选择提示，以在有限的推理预算下获得最佳性能。4) 多样性和语言覆盖的局限。尽管DOVE数据集规模庞大，但其当前版本在模型多样性和语言覆盖方面仍存在局限。未来的工作计划扩展数据集的范围，包括更多语言和领域的覆盖。

常用场景

经典使用场景

DOVE数据集的经典使用场景在于对大型语言模型（LLM）的鲁棒性和敏感性进行评估。通过在多个维度上对提示进行扰动，DOVE能够揭示LLM在不同提示下的性能变化，从而帮助研究人员更好地理解LLM的行为和限制。此外，DOVE还可以用于开发更有效的评估协议，例如通过选择性能最佳的提示来优化LLM的性能。

解决学术问题

DOVE数据集解决了LLM评估中的一个重要问题，即LLM对提示的敏感性。传统的评估方法通常只使用一个或几个提示来评估LLM的性能，而DOVE通过在多个维度上对提示进行扰动，揭示了LLM在不同提示下的性能变化，从而帮助研究人员更好地理解LLM的行为和限制。此外，DOVE还可以用于开发更有效的评估协议，例如通过选择性能最佳的提示来优化LLM的性能。

实际应用

DOVE数据集在实际应用中可以用于改进LLM的性能。例如，研究人员可以使用DOVE来选择最佳的提示来优化LLM的性能，从而提高LLM在特定任务上的表现。此外，DOVE还可以用于开发更有效的评估协议，例如通过选择性能最佳的提示来优化LLM的性能，从而提高LLM在特定任务上的表现。

数据集最近研究