Sherlock

arXiv2022-07-26 更新2024-07-30 收录

下载链接：

http://visualabduction.com/

下载链接

链接失效反馈

官方服务：

资源简介：

用于测试机器超越图像字面内容进行归纳推理能力的数据集，包含103K图像和363K（线索，推理）对。

A dataset for testing machines’ inductive reasoning abilities beyond the literal content of images, containing 103K images and 363K (clue, reasoning) pairs.

创建时间：

2022-02-10

搜集汇总

数据集介绍

构建方式

在视觉推理领域，构建能够模拟人类归纳推理能力的数据集具有重要研究价值。Sherlock数据集通过自由观察范式进行构建，研究者从Visual Genome和VCR数据集中选取了103,000张图像，并借助亚马逊众包平台，要求标注者在每张图像中识别出显著线索（如物体、动作），并基于这些线索提供超越图像字面内容的合理推理。最终收集到363,000个（线索，推理）对，每个推理均附带标注者对自身推理正确性的置信度评分，并通过后续验证环节确保了数据质量，其中97.5%的观察对被判定为合理。

使用方法

为系统评估机器视觉归纳推理能力，Sherlock定义了三个互补的任务框架。在推理检索任务中，模型需根据给定的图像和区域，从大规模候选推理集中识别出标注者提供的原始推理。证据定位任务要求模型为指定的推理在图像中找出最相关的支持区域。在合理性比较任务中，模型需要对一组与图像区域相关的候选推理进行排序，使其与人类评判的合理性等级相一致。这些任务共享统一的评估接口：模型接收图像、区域和候选推理作为输入，输出一个表示推理合理性的分数。基于此，研究者对CLIP、UNITER等多种视觉语言模型进行了微调与比较，为后续研究提供了基准。

背景与挑战

背景概述

视觉溯因推理作为人类认知的核心能力，旨在从有限视觉线索中推断出超越图像表层内容的合理假设。Sherlock数据集由艾伦人工智能研究所、华盛顿大学、加州大学伯克利分校等机构的研究团队于2021年联合创建，旨在系统探索机器是否能够模拟人类基于日常经验进行视觉溯因推理的能力。该数据集包含103K张图像及其对应的363K个（线索，推理）对，通过自由观察范式收集，要求标注者识别图像中的显著线索并给出基于线索的合理推理。相较于VCR、VisualCOMET等现有视觉常识推理数据集，Sherlock在格式上采用自由文本标注，内容上涵盖更广泛的非人本中心主题，显著提升了视觉溯因推理研究的多样性与深度。

当前挑战

Sherlock数据集致力于解决视觉溯因推理这一核心领域问题，其挑战在于要求模型从局部视觉线索出发，推断出未在图像中直接呈现的合理假设，这超越了传统的图像分类或目标检测任务。构建过程中的挑战主要体现在数据收集与标注的复杂性上：首先，为确保推理的溯因性质，需引导标注者超越图像表层内容进行思考，同时避免纯粹的演绎推理；其次，标注过程涉及对图像中显著线索的定位与自由文本描述，要求协调边界框标注与自然语言表达的一致性；此外，数据集的多样性与质量平衡亦面临挑战，需通过语义去重、主题分析等方法控制冗余内容，并利用验证机制确保标注的合理性与准确性。

常用场景

经典使用场景

在视觉与语言交叉研究领域，Sherlock数据集为探索机器视觉溯因推理能力提供了基准平台。该数据集通过自由观察范式，要求模型基于图像中的局部线索推断出超越画面直接内容的合理假设，例如从“湿滑路面”推测“近期下过雨”。这一经典使用场景不仅测试模型对视觉细节的敏感度，还评估其整合常识与上下文信息进行逻辑延伸的能力，为视觉推理模型的精细化评估设立了新标准。

解决学术问题

Sherlock数据集主要针对视觉溯因推理这一核心学术问题，旨在弥补传统视觉数据集在捕捉人类隐性认知过程方面的不足。它通过提供大量带边界框标注的线索-推断对，使研究者能够系统探究模型如何从有限视觉证据中生成合理假设，而非仅进行物体识别或描述。该数据集解决了视觉推理中主观性与不确定性建模的挑战，推动了机器在理解图像隐含语义、社会情境及常识关联方面的研究进展，为构建更类人的视觉理解系统奠定了数据基础。

实际应用

在实际应用层面，Sherlock数据集可服务于需要深度视觉内容分析的场景。例如，在社交媒体内容审核中，该数据集有助于开发能够识别图像可能引发的误导性推断或潜在有害联想的检测工具；在教育技术领域，可辅助构建能够引导学生进行批判性视觉思考的智能系统；在辅助驾驶或监控系统中，则能提升模型对复杂场景中隐含风险（如“积雪道路暗示驾驶危险”）的推理能力。这些应用均依赖于模型对视觉信息进行超越表面层次的解读。

数据集最近研究