Sherlock

github2022-11-12 更新2024-05-31 收录

下载链接：

https://github.com/allenai/sherlock

下载链接

链接失效反馈

官方服务：

资源简介：

我们收集了一个包含363K个*诱导推理*的大型语料库，这些推理基于103K张图像。每个推理都通过边界框与图像相关联。我们的模型根据给定的图像和边界框预测诱导推理。诱导推理是在不确定情况下对可能的推理进行推理的行为。

We have collected a large corpus comprising 363K instances of *abductive reasoning*, which are based on 103K images. Each reasoning instance is associated with an image through a bounding box. Our model predicts abductive reasoning based on the given image and bounding box. Abductive reasoning refers to the act of inferring the most plausible explanation under uncertain conditions.

创建时间：

2022-02-08

原始信息汇总

数据集概述

数据集名称

Sherlock

数据集描述

Sherlock 是一个包含大量图像相关推理的数据集，专注于视觉推理中的诱导推理。该数据集包含363,000个推理案例，涉及103,000张图像。每个推理案例都与图像中的边界框相关联。

数据集版本

当前版本为 1.1。

数据集内容

训练集：包含sherlock_train_v1_1.json.zip文件。
验证集：包含sherlock_val_with_split_idxs_v1_1.json.zip文件。
测试集：测试集标签未公开，但提供了一个leaderboard用于评估。

图像来源

图像数据来源于 VisualGenome 和 VCR。

额外资源

自动边界框提议：提供了一个文件image_url2auto_bboxes.json.zip，包含由预训练的Faster-RCNN模型生成的边界框提议。

预训练模型

提供了四个版本的预训练模型，包括 ViT/B-16, RN50x16, RN50x64, 和 RN50x64-multitask。

代码资源

提供了用于训练模型的代码、演示Jupyter笔记本以及leaderboard评估脚本。

许可证

代码：Apache License 2.0。
数据集：CC-BY。

搜集汇总

数据集介绍

构建方式

Sherlock数据集的构建基于视觉溯因推理任务，旨在通过图像和边界框进行推理。数据集包含363,000条推理数据，覆盖103,000张图像。图像主要来源于VisualGenome和VCR数据集，并通过预训练的Faster-RCNN模型生成自动边界框建议。每条推理数据均通过人工标注，确保推理的准确性和多样性。数据集的构建过程注重推理的合理性和图像内容的丰富性，为视觉推理任务提供了坚实的基础。

使用方法

使用Sherlock数据集时，用户需首先下载训练集和验证集数据，并从VisualGenome和VCR平台获取相关图像。数据集提供了预训练的CLIP风格模型，用户可通过提供的Jupyter Notebook探索模型预测结果。对于模型训练，数据集支持多种训练脚本和评估代码，用户可根据需求调整模型参数。此外，数据集还提供了自动边界框建议，便于用户快速构建推理任务。通过官方评估脚本，用户可提交结果至公开排行榜，验证模型性能。

背景与挑战

背景概述

Sherlock数据集由Allen Institute for AI的研究团队于2022年发布，旨在推动视觉溯因推理（Visual Abductive Reasoning）领域的研究。该数据集包含36.3万条推理数据，覆盖10.3万张图像，每一条推理均通过图像中的边界框进行标注。Sherlock的构建基于VisualGenome和VCR两个图像数据集，结合了CLIP模型的多任务学习框架，显著提升了模型在不确定情境下的推理能力。该数据集的发布为计算机视觉与自然语言处理的交叉领域提供了新的研究工具，推动了视觉推理任务的进一步发展。

当前挑战

Sherlock数据集在解决视觉溯因推理问题时面临多重挑战。首先，视觉溯因推理要求模型在信息不完整的情况下进行合理推断，这对模型的推理能力和上下文理解提出了极高要求。其次，数据集的构建过程中，研究人员需要确保推理标注的多样性和准确性，同时处理大规模图像数据的标注与对齐问题。此外，模型的训练与评估依赖于高质量的图像数据，而图像来源的多样性和复杂性进一步增加了数据处理的难度。这些挑战不仅体现在模型的性能优化上，也贯穿于数据集的构建与维护过程中。

常用场景

经典使用场景

Sherlock数据集在视觉推理领域具有广泛的应用，尤其是在图像理解和推理任务中。该数据集通过提供大量基于图像的归纳推理标注，帮助研究人员训练和评估模型在不确定性条件下的推理能力。经典的使用场景包括图像中的物体识别、场景理解以及基于视觉线索的推理任务。通过结合图像和边界框信息，模型能够生成合理的推理结果，从而推动视觉推理领域的研究进展。

解决学术问题

Sherlock数据集解决了视觉推理领域中的关键问题，特别是在不确定性条件下的归纳推理任务。传统的视觉推理模型往往难以处理复杂的推理场景，而Sherlock通过提供大量标注数据，使得模型能够在给定图像和边界框的情况下，生成合理的推理结果。这不仅提升了模型在视觉推理任务中的表现，还为研究人类推理过程提供了新的视角，推动了人工智能在视觉理解领域的深入发展。

实际应用

Sherlock数据集的实际应用场景广泛，涵盖了智能监控、自动驾驶、医疗影像分析等多个领域。在智能监控中，模型可以利用该数据集进行异常行为检测和场景理解；在自动驾驶中，模型可以通过视觉推理预测交通参与者的行为；在医疗影像分析中，模型能够基于图像推理出潜在的病理变化。这些应用不仅提升了系统的智能化水平，还为实际问题的解决提供了新的思路。

数据集最近研究