BaiqiL/NaturalBench
收藏数据集卡片 for NaturalBench 基准
描述
NaturalBench 基准: 视觉-语言模型(VLMs)在最近的视觉问答(VQA)基准测试中取得了显著进展,这些基准测试评估复杂的视觉-语言推理能力。然而,这些模型是否真正有效?在这项工作中,我们展示了 VLMs 仍然难以处理人类可以轻松回答的自然图像和问题,我们称之为 自然对抗样本。我们还发现,使用像 CLIP 和 ChatGPT 这样的现成模型从自然图像-文本语料库生成这些 VQA 样本出奇地容易。我们提出了一种半自动化的方法来收集一个新的基准 NaturalBench,用于可靠地评估 VLMs,包含超过 10,000 个人工验证的 VQA 样本。关键在于,我们采用以视觉为中心的设计,每个问题与两个产生不同答案的图像配对,防止“盲目”解决方案在不使用图像的情况下回答问题。 这使得 NaturalBench 比以前主要通过常识知识等语言先验解决的基准更具挑战性。
(我们将在接下来的两周内发布 NaturalBench 数据集。)
语言
英语、中文、印地语
支持的任务
VQA;VLMs 的评估。
使用方法
python
加载 NaturalBench 基准
from datasets import load_dataset
dataset = load_dataset("BaiqiL/NaturalBench")
数据集结构
数据实例
DatasetDict({ train: Dataset({ features: [id, type, source, image_1, image_2, question_1, question_2, answer_i1_q1, answer_i1_q2, answer_i2_q1, answer_i2_q2], num_rows: 11600 }) })
数据字段
| 名称 | 解释 |
|---|---|
id |
描述: 示例的唯一 ID。数据类型: 字符串 |
source |
描述: 指用于构建数据的原点。数据类型: 字符串 |
type |
描述: 指定数据样本的类型,表示问题类型为“是或否”或“多项选择”。此外,它指定语言类型,如“英语”、“中文”或“印地语”。数据类型: 字符串 |
question_1 |
描述: 第一个问题,可能是“是或否”或“多项选择”类型。数据类型: 字符串 |
question_2 |
描述: 第二个问题,可能是“是或否”或“多项选择”类型。数据类型: 字符串 |
image_1 |
描述: 第一张图像。数据类型: PIL.JpegImagePlugin.JpegImageFile |
answer_i1_q1 |
描述: 基于 image1 的 question_1 的正确答案。数据类型: 字符串 |
answer_i1_q2 |
描述: 基于 image1 的 question_2 的正确答案。数据类型: 字符串 |
image_2 |
描述: 第二张图像。数据类型: PIL.JpegImagePlugin.JpegImageFile |
answer_i2_q1 |
描述: 基于 image2 的 question_1 的正确答案。数据类型: 字符串 |
answer_i2_q2 |
描述: 基于 image2 的 question_2 的正确答案。数据类型: 字符串 |
数据来源
图像
从 Flicker30k、DOCCI、XM3600 收集。
问题和答案
由 GPT4/GPT4V 生成。
数据集构建
总体过程
我们使用半自动化的程序从 Flickr30K 等自然图像-文本语料库中收集 NaturalBench。
- 首先,我们识别出使 CLIP 和 BLIP2 等判别性 VLMs 失败的图像-文本样本对,例如,它们错误地将一个图像与另一个图像的标题匹配。
- 接下来,我们提示 ChatGPT(或 GPT4-Vision)为每个图像设计问题,这些问题会为每个图像产生不同的答案,并在提示中提供原始标题(或图像)。
- 我们聘请人工标注者过滤掉不正确或不相关的 VQA 样本,例如“摩托车手是否穿着红白相间的制服?”,其答案对两张图像都是“是”。与之前的对抗性基准不同,NaturalBench 不针对任何特定的 VQA 模型,也不扰动图像或问题。
问题生成提示:
“是或否”类型问题:
多项选择类型问题:
使用数据的注意事项
数据集的社会影响
我们引入 NaturalBench 来评估视觉-语言模型在其自然对抗样本上的表现——这些样本对模型的挑战远超过人类。与之前的基准不同,NaturalBench 更好地反映了 VLMs 的真实进展,因为它惩罚了忽略图像的解决方案。此外,NaturalBench 提供了全面的技能标签来评估组合推理能力,并突出了 VLMs 中的模型偏差。最后,我们展示了我们的半自动化基准制作方法可以适应新的数据源,促进未来对 VLMs 的动态评估。
偏差的讨论
通过人工标注者过滤,努力最小化数据集中存在的 NSFW 和有毒内容。
其他已知限制
我们收集的样本可能继承自网络爬取的数据集和基础模型中的偏差,因此人工验证至关重要。虽然这项工作侧重于单个技能标签的模型性能,但未来的工作可能会使用技能组合来分析性能。
许可信息
apache-2.0
作者声明
我们承担所有责任,以防违反权利。
维护
我们将持续更新 NaturalBench 基准。如果您对数据集有任何问题或发现任何问题,请随时联系 Baiqi Li 或 Zhiqiu Lin。我们的团队致力于长期维护此数据集,以确保其质量!



