Dove

Hugging Face2025-02-23 更新2025-02-24 收录

下载链接：

https://huggingface.co/datasets/DOVevaluation/Dove

下载链接

链接失效反馈

官方服务：

资源简介：

DOVE是一个大规模的数据集，用于研究语言模型（LLM）如何响应不同方式的同一问题的提问。该数据集包含超过3亿个模型预测，帮助研究人员理解和提升语言模型的评估效果。

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

DOVE数据集的构建，以大规模语言模型对多样化提问方式的响应为研究核心，涵盖了300M模型预测结果。该数据集通过对不同维度的提示变化进行综合分析，旨在帮助研究人员深入理解和提升大型语言模型评估的准确性。

特点

DOVE数据集特点显著，其在五个维度上提供了全面的提示变化，覆盖了78个流行基准，支持多种模型家族，并实现了零样本和少量样本评估。此外，数据集提供了完整的标记概率记录，助力研究者对模型行为进行深入分析。

使用方法

使用DOVE数据集，用户可以通过load_dataset函数加载完整数据集或特定模型/语言/样本组合的子集。数据集结构清晰，按照模型名称、样本数量、语言和具体数据文件组织。用户可根据需求选择完整版或轻量版进行快速实验或详细分析。

背景与挑战

背景概述

DOVE数据集，全称为Dataset Of Variation Evaluation，是一个大规模的语言模型响应研究数据集，旨在探讨不同提问方式对语言模型（LLMs）的影响。该数据集的创建时间为2025年2月19日，由研究团队首次发布，包含超过3亿个模型预测结果，为研究人员提供了深入了解并优化语言模型评估的宝贵资源。DOVE数据集由多个研究团队共同研发，其核心研究问题是如何提高LLMs的评价效率与准确性，对自然语言处理领域产生了重要影响。

当前挑战

DOVE数据集面临的挑战主要包括：1）处理78个流行基准测试中的多维度提示变化，以适应不同的语言模型；2）涵盖多种模型家族，如Llama、OLMo、Mistral等，需要确保数据集的通用性和兼容性；3）在zero-shot和few-shot评估中，对模型预测的全面性和准确性提出更高要求；4）构建过程中，数据集的规模和复杂性给数据管理和存储带来了挑战。

常用场景

经典使用场景

在自然语言处理领域，针对语言模型对同一问题的不同提问方式的响应研究，DOVE数据集提供了一种全新的视角。该数据集通过其全面的提示变化，覆盖了78个流行基准，支持多种模型家族，实现了零样本和少量样本评估，成为研究者和开发者探究语言模型评价的重要资源。

解决学术问题

DOVE数据集解决了如何全面评估大型语言模型在面对不同提问方式时的表现问题，它提供了全面的提示变化，使得研究者可以深入理解模型的行为模式，并据此改进模型。此外，该数据集的零样本和少量样本评估功能，对于研究模型在少量训练数据情况下的性能具有重要意义。

衍生相关工作

基于DOVE数据集，学术界和产业界已经衍生出一系列相关工作，包括对数据集的深入分析，以及基于该数据集进行的语言模型性能改进研究，这些工作进一步推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集