visual-riddles/visual-riddles

Name: visual-riddles/visual-riddles
Creator: visual-riddles
Published: 2024-06-13 01:46:56
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/visual-riddles/visual-riddles

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Riddles数据集是一个用于评估视觉推理和常识理解能力的基准数据集。它包含一系列视觉丰富的谜题，每个谜题都配有专门为该挑战生成的合成图像。这些谜题精心设计，将微妙的视觉线索与日常场景相结合，挑战人类和模型在解释和常识推理方面的能力。数据集的任务包括开放式视觉问答（VQA）、多项选择VQA和自动评分开放式回答。实验结果表明，人类与最先进的视觉和语言模型之间存在显著的性能差距，突显了将常识推理和世界知识整合到模型架构中的挑战。此外，尝试使用文本到图像模型重现基准图像时，视觉谜题带来了独特的挑战。

提供机构：

visual-riddles

原始信息汇总

Visual-Riddles 数据集概述

数据集描述

Visual Riddles 数据集是一个用于评估视觉推理和常识理解的基准数据集。它包含一系列视觉丰富的谜题，每个谜题都附有一个专门为挑战生成的合成图像。这些谜题精心设计，结合了微妙的视觉线索和日常场景，挑战人类和模型在解释和常识推理方面的能力。

任务类型

开放式视觉问答（VQA）：参与者根据附带图像提供自由文本答案，评估其检测视觉线索和应用常识推理的能力。
多选题 VQA：参与者从预定义选项中选择答案，评估其在结构化格式中理解视觉线索和推理能力。
开放式答案自动评分：模型在无参考和有参考场景中评估开放式答案的准确性，探索自动评估方法以评估答案的有效性。

数据字段

image：视觉谜题的图像。
question：与图像中的视觉线索和外部常识或世界知识信息相关的挑战性问题。
ground_truth_answer：谜题的设计者提供的答案。
hint：引导注意图像中视觉线索的提示。
attribution：包含世界知识信息归属的网页URL。
human-caption：设计者提供的图像描述。
prompt：用于生成谜题图像的提示。
attribution_content：设计者在attribution字段中提供的网页URL的文本内容。
generative_model_name：用于生成谜题图像的模型名称。
designer：视觉谜题设计者的名称。
difficulty_level_index：谜题的难度级别，范围从0（直接视觉线索，常识知识）到3（隐藏视觉线索，非常具体的世界知识）。
category：谜题相关的常识/知识类别。
gemini-1.5-pro-caption：Gemini-Pro-1.5模型为开放式VQA任务提供的图像描述。
image_id：数据集中图像的唯一ID。
human_<1,2,3>-open_ended_answer：来自三个不同注释者的开放式VQA答案。
human_<1,2,3>-open_ended_answer-human_annotation：注释者提供的答案是否正确的标注。
<model_name>-open_ended_answer-LVLM：模型在LVLM情况下提供的开放式VQA答案。
<model_name>-open_ended_answer-LVLM-human_annotation：模型在LVLM情况下提供的答案是否正确的标注。
gemini-1.5-pro-open_ended_answer-<model_name>-caption_LLM：Gemini-Pro-1.5模型在Caption->LLM情况下提供的开放式VQA答案。
gemini-1.5-pro-open_ended_answer-<model_name>-caption_LLM-human_annotation：Gemini-Pro-1.5模型在Caption->LLM情况下提供的答案是否正确的标注。
models_answers_order-multiple_choice：多选题VQA提示中模型答案的顺序。
candidate_answers-multiple_choice：多选题VQA提示中的候选答案。
prompt_clean-multiple_choice：多选题VQA任务的提示，包括图像、问题、正确答案、三个错误答案候选和一个“无法确定”的干扰项。
prompt_hint-multiple_choice：包含提示的多选题VQA任务的提示。
prompt_attribution-multiple_choice：包含归属的多选题VQA任务的提示。
model_order-auto_eval：自动评估（判断）提示中两个模型答案的顺序。
model_answers-auto_eval：自动评估（判断）提示中的候选答案。
prompts_ref_free-auto_eval：无参考场景中自动评估（判断）任务的提示。
prompts_ref_based-auto_eval：有参考场景中自动评估（判断）任务的提示。

数据分割

Visual Riddles 是一个挑战集，只有一个测试分割（TEST split）。

数据加载

可以使用以下代码加载数据： python from datasets import load_dataset examples = load_dataset(visual-riddles/visual-riddles, use_auth_token=<YOUR USER ACCESS TOKEN>)