Dove

Name: Dove
Creator: nlphuji
Published: 2025-02-21 18:42:33
License: 暂无描述

Hugging Face2025-02-21 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/nlphuji/Dove

下载链接

链接失效反馈

官方服务：

资源简介：

DOVE是一个用于研究语言模型如何响应不同提问方式的大型数据集，包含超过3亿个模型预测，帮助研究人员进行LLM评估的改进。

提供机构：

nlphuji

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

DOVE数据集的构建，旨在探究不同提问方式对语言模型（LLM）响应的影响。该数据集通过收集超过3亿个模型预测，为研究人员提供了深入理解和优化LLM评估的丰富资源。

特点

DOVE数据集具备以下显著特点：在五个维度上对提示进行全面的变异覆盖；包含78个流行基准（如MMLU、ARC、HellaSwag等）；涵盖多个模型家族（Llama、OLMo、Mistral）；支持零样本和少量样本评估；完整记录标记级别概率。

使用方法

使用DOVE数据集，研究者可以轻松加载完整数据集或特定模型/语言组合的数据子集。数据集的结构按模型名称、语言和数据分析文件进行组织，便于快速实验和深入分析。

背景与挑战

背景概述

DOVE数据集，即语言模型变体评估数据集，是一项于2025年2月19日初始发布的重要研究成果。该数据集由匿名研究人员创建，旨在深入探究大型语言模型（LLMs）对于相同问题不同提问方式的响应。包含超过3亿条模型预测，DOVE数据集为研究人员提供了一个强有力的工具，以理解和提升LLM评估的质量。该数据集覆盖了78个流行基准，跨越了多种模型家族，并提供了零样本和少样本评估，为语言模型研究领域带来了深远的影响。

当前挑战

DOVE数据集在构建过程中面临的挑战主要包括：如何在多维度上全面覆盖提示的变体，以及如何确保数据集能够适应不同的模型家族和评估场景。此外，数据集在解决如何通过模型响应来揭示LLM内在行为的问题上亦面临挑战。在领域问题上，DOVE数据集的挑战在于它需要能够准确反映LLM对于不同提问方式的理解和反应，这对于提升LLM的交互性和可靠性至关重要。

常用场景

经典使用场景

在语言模型研究领域，DOVE数据集的典型应用场景在于评估不同语言模型在处理同一问题的多样化表述时的响应。该数据集通过提供覆盖多个维度的全面提示变化，使得研究者能够深入探究模型在零样本和少样本情境下的表现，从而优化模型评价过程。

实际应用

在实际应用中，DOVE数据集可用于指导语言模型的开发与优化，特别是在模型需要适应多样化输入和零样本学习场景的应用。它为模型训练提供了丰富的多样性数据，有助于提高模型的泛化能力和实际应用中的表现。

衍生相关工作

基于DOVE数据集，研究者们已经开展了一系列相关工作，包括但不限于对模型在不同维度下的性能比较、提示工程的有效性研究以及模型评价方法的改进等，这些研究进一步推动了语言模型评价技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集