visual-riddles/visual-riddles
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/visual-riddles/visual-riddles
下载链接
链接失效反馈官方服务:
资源简介:
Visual Riddles数据集是一个用于评估视觉推理和常识理解能力的基准数据集。它包含一系列视觉丰富的谜题,每个谜题都配有专门为该挑战生成的合成图像。这些谜题精心设计,将微妙的视觉线索与日常场景相结合,挑战人类和模型在解释和常识推理方面的能力。数据集的任务包括开放式视觉问答(VQA)、多项选择VQA和自动评分开放式回答。实验结果表明,人类与最先进的视觉和语言模型之间存在显著的性能差距,突显了将常识推理和世界知识整合到模型架构中的挑战。此外,尝试使用文本到图像模型重现基准图像时,视觉谜题带来了独特的挑战。
Visual Riddles数据集是一个用于评估视觉推理和常识理解能力的基准数据集。它包含一系列视觉丰富的谜题,每个谜题都配有专门为该挑战生成的合成图像。这些谜题精心设计,将微妙的视觉线索与日常场景相结合,挑战人类和模型在解释和常识推理方面的能力。数据集的任务包括开放式视觉问答(VQA)、多项选择VQA和自动评分开放式回答。实验结果表明,人类与最先进的视觉和语言模型之间存在显著的性能差距,突显了将常识推理和世界知识整合到模型架构中的挑战。此外,尝试使用文本到图像模型重现基准图像时,视觉谜题带来了独特的挑战。
提供机构:
visual-riddles
原始信息汇总
Visual-Riddles 数据集概述
数据集描述
Visual Riddles 数据集是一个用于评估视觉推理和常识理解的基准数据集。它包含一系列视觉丰富的谜题,每个谜题都附有一个专门为挑战生成的合成图像。这些谜题精心设计,结合了微妙的视觉线索和日常场景,挑战人类和模型在解释和常识推理方面的能力。
任务类型
- 开放式视觉问答(VQA):参与者根据附带图像提供自由文本答案,评估其检测视觉线索和应用常识推理的能力。
- 多选题 VQA:参与者从预定义选项中选择答案,评估其在结构化格式中理解视觉线索和推理能力。
- 开放式答案自动评分:模型在无参考和有参考场景中评估开放式答案的准确性,探索自动评估方法以评估答案的有效性。
数据字段
image:视觉谜题的图像。question:与图像中的视觉线索和外部常识或世界知识信息相关的挑战性问题。ground_truth_answer:谜题的设计者提供的答案。hint:引导注意图像中视觉线索的提示。attribution:包含世界知识信息归属的网页URL。human-caption:设计者提供的图像描述。prompt:用于生成谜题图像的提示。attribution_content:设计者在attribution字段中提供的网页URL的文本内容。generative_model_name:用于生成谜题图像的模型名称。designer:视觉谜题设计者的名称。difficulty_level_index:谜题的难度级别,范围从0(直接视觉线索,常识知识)到3(隐藏视觉线索,非常具体的世界知识)。category:谜题相关的常识/知识类别。gemini-1.5-pro-caption:Gemini-Pro-1.5模型为开放式VQA任务提供的图像描述。image_id:数据集中图像的唯一ID。human_<1,2,3>-open_ended_answer:来自三个不同注释者的开放式VQA答案。human_<1,2,3>-open_ended_answer-human_annotation:注释者提供的答案是否正确的标注。<model_name>-open_ended_answer-LVLM:模型在LVLM情况下提供的开放式VQA答案。<model_name>-open_ended_answer-LVLM-human_annotation:模型在LVLM情况下提供的答案是否正确的标注。gemini-1.5-pro-open_ended_answer-<model_name>-caption_LLM:Gemini-Pro-1.5模型在Caption->LLM情况下提供的开放式VQA答案。gemini-1.5-pro-open_ended_answer-<model_name>-caption_LLM-human_annotation:Gemini-Pro-1.5模型在Caption->LLM情况下提供的答案是否正确的标注。models_answers_order-multiple_choice:多选题VQA提示中模型答案的顺序。candidate_answers-multiple_choice:多选题VQA提示中的候选答案。prompt_clean-multiple_choice:多选题VQA任务的提示,包括图像、问题、正确答案、三个错误答案候选和一个“无法确定”的干扰项。prompt_hint-multiple_choice:包含提示的多选题VQA任务的提示。prompt_attribution-multiple_choice:包含归属的多选题VQA任务的提示。model_order-auto_eval:自动评估(判断)提示中两个模型答案的顺序。model_answers-auto_eval:自动评估(判断)提示中的候选答案。prompts_ref_free-auto_eval:无参考场景中自动评估(判断)任务的提示。prompts_ref_based-auto_eval:有参考场景中自动评估(判断)任务的提示。
数据分割
Visual Riddles 是一个挑战集,只有一个测试分割(TEST split)。
数据加载
可以使用以下代码加载数据: python from datasets import load_dataset examples = load_dataset(visual-riddles/visual-riddles, use_auth_token=<YOUR USER ACCESS TOKEN>)
许可证信息
数据集使用 Apache 2.0 许可证。
使用限制
- 主要用途:数据集主要设计为测试集使用。
- 商业用途:商业上,数据集可以用作测试集,但不能用作训练集。
- 图像权利:数据集中所有图像的权利由 Visual Riddles 作者保留。
注释
数据集的开放式VQA答案和模型及人类答案的标注由亚马逊Mechanical Turk工人提供。
使用数据的注意事项
数据集中可能包含一些可能被认为是有害或冒犯性的图像和文本。如果发现任何有害内容,请报告给联系点,我们将审查并删除被认为有害的图像。
搜集汇总
数据集介绍

背景与挑战
背景概述
Visual-Riddles数据集是一个用于评估视觉推理和常识理解的基准数据集,包含视觉谜语和合成图像,旨在结合视觉线索与日常场景,挑战模型和人类的解释能力。它支持开放式视觉问答、多项选择VQA和自动评分等任务,数据显示人类与先进模型之间存在显著性能差距,适用于研究视觉与语言整合的挑战。
以上内容由遇见数据集搜集并总结生成



