DARE

Name: DARE
Creator: Language Technology Lab @University of Cambridge
Published: 2024-09-26 20:16:33
License: 暂无描述

Hugging Face2024-09-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/cambridgeltl/DARE

下载链接

链接失效反馈

官方服务：

资源简介：

DARE（多样化的视觉问答与鲁棒性评估）是一个精心创建和策划的多项选择VQA基准。它评估视觉语言模型在五个不同类别上的性能，并包括基于提示、答案选项子集、输出格式和正确答案数量的四种鲁棒性评估。数据集的验证部分包含图像、问题、答案选项和正确答案，而测试部分的正确答案未公开以防止污染。

DARE (Diverse Visual Question Answering and Robustness Evaluation) is a meticulously created and curated multiple-choice VQA benchmark. It evaluates the performance of vision-language models across five distinct categories, and incorporates four robustness assessments based on prompts, answer option subsets, output formats, and the number of correct answers. The validation split of the dataset includes images, questions, answer options, and correct answers, while the correct answers for the test split are withheld to avoid data contamination.

提供机构：

Language Technology Lab @University of Cambridge

创建时间：

2024-09-24

原始信息汇总

DARE 数据集概述

数据集信息

特征

id: 字符串类型
instance_id: 64位整数类型
question: 字符串类型
answer: 字符串列表类型
A: 字符串类型
B: 字符串类型
C: 字符串类型
D: 字符串类型
category: 字符串类型
img: 图像类型

配置

1_correct:
- validation: 1_correct/validation/0000.parquet
- test: 1_correct/test/0000.parquet
1_correct_var:
- validation: 1_correct_var/validation/0000.parquet
- test: 1_correct_var/test/0000.parquet
n_correct:
- validation: n_correct/validation/0000.parquet
- test: n_correct/test/0000.parquet

数据集描述

DARE (Diverse Visual Question Answering with Robustness Evaluation) 是一个精心创建和策划的多项选择视觉问答基准。DARE 评估 VLM 在五个不同类别上的性能，并包括基于以下变体的四个鲁棒性评估：

提示
答案选项的子集
输出格式
正确答案的数量

验证集包含图像、问题、答案选项和正确答案。为了防止污染，测试集的正确答案未公开。

数据集加载

使用 Hugging Face 的 datasets 库加载数据集：

python from datasets import load_dataset

加载数据集

subset = "1_correct" # 根据需要更改子集 dataset = load_dataset("cambridgeltl/DARE", subset)

搜集汇总

数据集介绍

构建方式

DARE数据集是一个精心构建的多选题视觉问答基准测试，旨在评估视觉语言模型在多样化类别上的表现。数据集的构建基于五个不同的类别，并通过四种鲁棒性评估方法进行验证，包括提示的变体、答案选项的子集、输出格式的变化以及正确答案的数量。验证集包含图像、问题、答案选项和正确答案，而测试集的正确答案未公开以防止数据污染。

特点

DARE数据集的特点在于其多样性和鲁棒性评估。数据集涵盖了五个不同的类别，确保了对视觉语言模型的全面评估。通过四种鲁棒性评估方法，数据集能够测试模型在不同条件下的表现，包括提示的变体、答案选项的子集、输出格式的变化以及正确答案的数量。这种设计使得DARE成为一个具有挑战性和实用性的基准测试。

使用方法

使用DARE数据集时，可以通过Hugging Face的datasets库进行加载。用户可以选择不同的子集，如'1_correct'，并根据需要加载验证集或测试集。加载数据集后，用户可以访问图像、问题、答案选项和正确答案（仅验证集），从而进行模型训练和评估。具体使用方法如下： python from datasets import load_dataset # 加载数据集 subset = "1_correct" # 更改为所需的子集 dataset = load_dataset("cambridgeltl/DARE", subset)

背景与挑战

背景概述

DARE（Diverse Visual Question Answering with Robustness Evaluation）是一个精心构建的多选题视觉问答基准数据集，旨在评估视觉语言模型（VLM）在多样化场景下的性能。该数据集由Hannah Sterz、Jonas Pfeiffer和Ivan Vulić等研究人员于2024年提出，涵盖了五个不同的类别，并通过四种鲁棒性评估方法（包括提示词变化、答案选项子集、输出格式和正确答案数量）来全面测试模型的鲁棒性。DARE的发布为视觉问答领域提供了新的评估工具，推动了模型在复杂场景下的性能提升。

当前挑战

DARE数据集在解决视觉问答领域问题时面临多重挑战。首先，视觉问答任务本身要求模型能够同时理解图像内容和自然语言问题，这对模型的跨模态理解能力提出了极高要求。其次，DARE通过引入多样化的评估方法，进一步增加了任务的复杂性，例如模型需要在不同提示词或答案选项子集下保持一致的性能表现。此外，数据集的构建过程中，研究人员需要确保图像、问题和答案选项之间的高质量对齐，同时避免数据偏差，这对数据收集和标注提出了极高的要求。这些挑战共同推动了视觉问答领域的技术进步。

常用场景

经典使用场景

DARE数据集在视觉问答（VQA）领域中被广泛用于评估视觉语言模型（VLM）的性能。该数据集通过多样化的类别和四种鲁棒性评估方法，帮助研究者深入理解模型在不同情境下的表现。经典使用场景包括模型在多种提示、答案选项子集、输出格式和正确答案数量变化下的性能测试。

衍生相关工作

DARE数据集的发布推动了多项相关研究工作的进展。例如，基于DARE的评估框架，研究者开发了新的视觉语言模型训练方法，以提升模型在多样化问题上的表现。此外，DARE的鲁棒性评估方法也被应用于其他视觉问答数据集，进一步扩展了其在学术研究和实际应用中的影响力。

数据集最近研究