WSID-100

Name: WSID-100
Creator: 起源人工智能研究所
Published: 2019-03-01 15:08:08
License: 暂无描述

arXiv2019-03-01 更新2024-06-21 收录

下载链接：

http://www.multimediauts.org/dataset/WSID-100.html

下载链接

链接失效反馈

官方服务：

资源简介：

WSID-100是由起源人工智能研究所开发的一个自动构建的多样化高质量图像数据集，包含100个类别，每个类别100张图片，总计10000张图片。该数据集通过使用多个文本查询，从网络收集多样化和准确的图像，特别将噪声文本查询移除和噪声图像过滤分别作为多视图和多实例学习问题处理。数据集的构建过程包括候选文本查询的发现、噪声文本查询的过滤和噪声图像的过滤三个主要步骤。WSID-100数据集旨在解决图像分类、跨数据集泛化和目标检测等任务，通过实验证明，使用该数据集生成的数据在这些任务上取得了显著的性能提升，并且持续优于现有的弱监督和网络监督方法。

WSID-100 is an automatically constructed, diverse and high-quality image dataset developed by the Origin Institute of Artificial Intelligence. It includes 100 categories, with 100 images per category, totaling 10,000 images. This dataset collects diverse and accurate images from the web using multiple text queries. Specifically, it treats the removal of noisy text queries and the filtering of noisy images as multi-view learning and multi-instance learning problems respectively. The construction process of WSID-100 contains three main steps: discovery of candidate text queries, filtering of noisy text queries, and filtering of noisy images. WSID-100 is intended for tasks such as image classification, cross-dataset generalization and object detection. Experiments have proven that data generated using this dataset achieves significant performance improvements on these tasks, and consistently outperforms existing weakly-supervised and web-supervised methods.

提供机构：

起源人工智能研究所

创建时间：

2017-08-22

搜集汇总

数据集介绍

构建方式

在图像数据集构建领域，传统方法依赖人工标注，成本高昂且难以扩展。WSID-100 数据集提出了一种自动化的构建框架，通过利用 Google Books Ngram Corpus 为每个目标类别发现一组语义丰富的文本查询，从中筛选出视觉显著且语义相关的查询，并基于这些查询从图像搜索引擎中检索图片以构建原始数据集。随后，将检索到的噪声图像划分为人工图像、类间噪声和类内噪声三类，分别采用颜色与梯度直方图特征结合 SVM 的方法、多示例学习以及线性规划多示例学习进行逐级过滤，最终得到高质量且多样化的图像集合。

特点

WSID-100 数据集包含 100 个类别，每个类别通过多个语义差异化的文本查询获取图像，从而有效克服了单一查询带来的数据集偏差和同质化问题。其构建过程将文本查询过滤与图像去噪有机融合，通过多视角学习筛选语义与视觉双重相关的查询，并利用多示例学习以线性规划方式同时处理类间与类内噪声，在保证准确性的前提下显著提升了数据集的多样性。实验表明，WSID-100 在图像分类、跨数据集泛化和目标检测任务中均优于现有弱监督和网络监督数据集。

使用方法

WSID-100 数据集可直接用于训练和评估视觉识别模型。使用时，用户可从公开网站下载原始图像数据及其对应的文本查询信息。对于图像分类任务，可将数据集中的图像作为正样本，配合随机选取的负样本训练 SVM 或深度学习分类器。在目标检测任务中，由于数据无人工标注的边界框，可借助图像搜索引擎中物体居中的先验，通过 Exemplar-LDA 和聚类方法自动生成候选框，进而训练 Faster R-CNN 等检测器。此外，该数据集还可作为基准，用于评估各类噪声过滤与数据选择算法的性能。

背景与挑战

背景概述

在计算机视觉领域，标注图像数据集是推动特征设计与模型发展的关键资源。然而，传统数据集的构建过程高度依赖人工标注，耗时且单调，难以满足日益增长的视觉类别与类内变化需求。为突破这一瓶颈，Yazhou Yao、Jian Zhang等研究者在2017年提出了WSID-100数据集，旨在利用网络数据自动构建高质量、多样化的图像集合。该数据集包含100个类别，其核心创新在于通过多文本查询策略确保可扩展性与多样性，并借助多视图与多实例学习方法过滤噪声。WSID-100的发布为图像分类、跨数据集泛化及目标检测等任务提供了有力的基准平台，显著推动了弱监督与网络监督方法的发展。

当前挑战

WSID-100的构建面临三大核心挑战。首先，可扩展性问题源于图像搜索引擎对单次查询返回图像数量的严格限制，以及初始候选图像精度的不足。其次，准确性挑战由搜索引擎的索引错误引发，即使排名靠前的图像也可能包含噪声，现有重排序方法虽能提升精度，却受限于单查询带来的低多样性。最后，多样性问题表现为数据集偏差，单查询收集的图像类内变化有限。为解决这些难题，研究者需在噪声文本查询过滤、人工图像与类间/类内噪声剔除等环节设计高效算法，同时平衡精度与多样性，避免迭代机制对数据产出的限制。

常用场景

经典使用场景

在计算机视觉领域，图像数据集的构建是推动模型性能提升的关键基石。WSID-100数据集最经典的使用场景是作为图像分类任务的训练与评估基准，尤其适用于评估从网络自动采集的图像数据在监督学习中的表现。研究者可利用该数据集中的100个类别，训练深度卷积神经网络（如AlexNet）以验证分类精度，并对比其与人工标注数据集（如ImageNet）的优劣。此外，该数据集还广泛用于跨数据集泛化能力测试，通过在不同来源的图像集上训练与测试，衡量模型对数据分布差异的鲁棒性，从而揭示数据集多样性对算法适应性的深远影响。

衍生相关工作

WSID-100数据集的提出催生了一系列衍生研究工作，尤其在网络监督学习和弱监督学习领域。例如，后续工作借鉴其多文本查询发现策略，利用Google Books Ngram Corpus生成更丰富的语义查询，并采用协同正则化多视图学习进一步优化查询筛选。在噪声过滤方面，研究者受其线性规划多实例学习启发，提出了更高效的迭代式噪声剔除算法，用于处理更复杂的类间与类内噪声。此外，该数据集还推动了跨数据集泛化评估标准的确立，促使多项研究（如DRID-20和Harvesting）在统一框架下对比性能，从而深化了对数据集偏差与多样性的理论理解。

数据集最近研究