BaiqiL/NaturalBench

Name: BaiqiL/NaturalBench
Creator: BaiqiL
Published: 2024-06-30 11:40:40
License: 暂无描述

Hugging Face2024-06-30 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/BaiqiL/NaturalBench

下载链接

链接失效反馈

官方服务：

资源简介：

NaturalBench数据集是一个用于评估视觉-语言模型（VLMs）在自然图像和问题上的表现的基准数据集。该数据集包含超过10,000个人工验证的视觉问答（VQA）样本，每个问题都配有两张图像，以确保模型必须依赖图像信息来回答问题，而不是仅依赖语言先验知识。数据集支持的任务包括VQA和VLMs的评估，数据来源包括Flicker30k、DOCCI和XM3600等。数据集的构建过程包括半自动化的样本收集和人工验证，以确保样本的质量和挑战性。数据集支持的语言包括英语、中文和印地语。

The NaturalBench dataset is a benchmark designed to evaluate the performance of vision-language models (VLMs) on natural images and questions. It contains over 10,000 human-verified visual-question-answering (VQA) samples, each paired with two images to ensure that models must rely on image information to answer questions, rather than solely on language priors. The dataset supports tasks such as VQA and evaluation for VLMs. Data sources include Flicker30k, DOCCI, and XM3600. The dataset construction process involves a semi-automated collection of samples and human verification to ensure sample quality and challenge. The dataset supports languages including English, Chinese, and Hindi.

提供机构：

BaiqiL

原始信息汇总

数据集卡片 for NaturalBench 基准

描述

NaturalBench 基准： 视觉-语言模型（VLMs）在最近的视觉问答（VQA）基准测试中取得了显著进展，这些基准测试评估复杂的视觉-语言推理能力。然而，这些模型是否真正有效？在这项工作中，我们展示了 VLMs 仍然难以处理人类可以轻松回答的自然图像和问题，我们称之为 自然对抗样本。我们还发现，使用像 CLIP 和 ChatGPT 这样的现成模型从自然图像-文本语料库生成这些 VQA 样本出奇地容易。我们提出了一种半自动化的方法来收集一个新的基准 NaturalBench，用于可靠地评估 VLMs，包含超过 10,000 个人工验证的 VQA 样本。关键在于，我们采用以视觉为中心的设计，每个问题与两个产生不同答案的图像配对，防止“盲目”解决方案在不使用图像的情况下回答问题。 这使得 NaturalBench 比以前主要通过常识知识等语言先验解决的基准更具挑战性。

（我们将在接下来的两周内发布 NaturalBench 数据集。）

语言

英语、中文、印地语

支持的任务

VQA；VLMs 的评估。

使用方法

python

加载 NaturalBench 基准

from datasets import load_dataset

dataset = load_dataset("BaiqiL/NaturalBench")

数据集结构

数据实例

DatasetDict({ train: Dataset({ features: [id, type, source, image_1, image_2, question_1, question_2, answer_i1_q1, answer_i1_q2, answer_i2_q1, answer_i2_q2], num_rows: 11600 }) })

数据字段

名称	解释
`id`	描述：示例的唯一 ID。数据类型：字符串
`source`	描述：指用于构建数据的原点。数据类型：字符串
`type`	描述：指定数据样本的类型，表示问题类型为“是或否”或“多项选择”。此外，它指定语言类型，如“英语”、“中文”或“印地语”。数据类型：字符串
`question_1`	描述：第一个问题，可能是“是或否”或“多项选择”类型。数据类型：字符串
`question_2`	描述：第二个问题，可能是“是或否”或“多项选择”类型。数据类型：字符串
`image_1`	描述：第一张图像。数据类型： PIL.JpegImagePlugin.JpegImageFile
`answer_i1_q1`	描述：基于 image1 的 question_1 的正确答案。数据类型：字符串
`answer_i1_q2`	描述：基于 image1 的 question_2 的正确答案。数据类型：字符串
`image_2`	描述：第二张图像。数据类型： PIL.JpegImagePlugin.JpegImageFile
`answer_i2_q1`	描述：基于 image2 的 question_1 的正确答案。数据类型：字符串
`answer_i2_q2`	描述：基于 image2 的 question_2 的正确答案。数据类型：字符串

数据来源

图像

从 Flicker30k、DOCCI、XM3600 收集。

问题和答案

由 GPT4/GPT4V 生成。

数据集构建

总体过程

我们使用半自动化的程序从 Flickr30K 等自然图像-文本语料库中收集 NaturalBench。

首先，我们识别出使 CLIP 和 BLIP2 等判别性 VLMs 失败的图像-文本样本对，例如，它们错误地将一个图像与另一个图像的标题匹配。
接下来，我们提示 ChatGPT（或 GPT4-Vision）为每个图像设计问题，这些问题会为每个图像产生不同的答案，并在提示中提供原始标题（或图像）。
我们聘请人工标注者过滤掉不正确或不相关的 VQA 样本，例如“摩托车手是否穿着红白相间的制服？”，其答案对两张图像都是“是”。与之前的对抗性基准不同，NaturalBench 不针对任何特定的 VQA 模型，也不扰动图像或问题。

问题生成提示：

“是或否”类型问题：

多项选择类型问题：

使用数据的注意事项

数据集的社会影响

我们引入 NaturalBench 来评估视觉-语言模型在其自然对抗样本上的表现——这些样本对模型的挑战远超过人类。与之前的基准不同，NaturalBench 更好地反映了 VLMs 的真实进展，因为它惩罚了忽略图像的解决方案。此外，NaturalBench 提供了全面的技能标签来评估组合推理能力，并突出了 VLMs 中的模型偏差。最后，我们展示了我们的半自动化基准制作方法可以适应新的数据源，促进未来对 VLMs 的动态评估。

偏差的讨论

通过人工标注者过滤，努力最小化数据集中存在的 NSFW 和有毒内容。

其他已知限制

我们收集的样本可能继承自网络爬取的数据集和基础模型中的偏差，因此人工验证至关重要。虽然这项工作侧重于单个技能标签的模型性能，但未来的工作可能会使用技能组合来分析性能。

许可信息

apache-2.0

作者声明

我们承担所有责任，以防违反权利。

维护

我们将持续更新 NaturalBench 基准。如果您对数据集有任何问题或发现任何问题，请随时联系 Baiqi Li 或 Zhiqiu Lin。我们的团队致力于长期维护此数据集，以确保其质量！

5,000+

优质数据集

54 个

任务类型

进入经典数据集