NDEC

Name: NDEC
Creator: 悉尼科技大学
Published: 2022-12-02 05:18:37
License: 暂无描述

arXiv2022-12-02 更新2024-07-24 收录

下载链接：

https://github.com/WangWenhao0716/ASL

下载链接

链接失效反馈

官方服务：

资源简介：

NDEC数据集，由悉尼科技大学和百度研究联合创建，专注于解决图像复制检测中的硬负样本问题。该数据集包含49,252个查询图像，其中24,252个为硬负样本，这些样本与参考图像高度相似但并非编辑副本。NDEC通过增加训练和测试集中的硬负样本对，显著提高了图像复制检测的难度。数据集的应用领域主要集中在提高图像复制检测的准确性，特别是在区分编辑副本与高度相似的非编辑副本方面。

The NDEC Dataset, jointly developed by the University of Technology Sydney and Baidu Research, is dedicated to addressing the hard negative sample problem in image copy detection. This dataset consists of 49,252 query images, of which 24,252 are hard negative samples—samples that bear high similarity to reference images but are not edited copies. By augmenting the number of hard negative sample pairs in both training and test sets, NDEC significantly elevates the difficulty of image copy detection tasks. The core applications of this dataset focus on enhancing the accuracy of image copy detection, particularly in distinguishing between edited copies and highly similar non-edited copies.

提供机构：

悉尼科技大学

创建时间：

2022-05-25

原始信息汇总

NDEC 数据集

数据集组成

训练集

负样本对：包含 100,000 对负样本图像，可从 Google Drive 下载。
原始训练图像：100,000 张来自 ISC2021 的原始训练图像，可从 Meta AI 下载页面获取。

参考集

原始参考图像：100,000 张来自 ISC2021 的原始参考图像，可从 Meta AI 下载页面获取。

查询集

查询图像：包含 49,252 张查询图像，可从 Google Drive 下载。

地真集

查询集的地真文件：包含查询集的地真文件，可从 Google Drive 下载。

引用

如果使用该数据集或发现 ASL 有帮助，请引用以下论文：

@inproceedings{wang2023benchmark, title={A benchmark and asymmetrical-similarity learning for practical image copy detection}, author={Wang, Wenhao and Sun, Yifan and Yang, Yi}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={37}, number={3}, pages={2672--2679}, year={2023} }

搜集汇总

数据集介绍

构建方式

NDEC数据集的构建基于现有的图像复制检测（ICD）数据集，主要增加了大量的困难负样本对。在测试集中，增加了24,252个与参考图像非常相似但并非编辑副本的困难负样本；在训练集中，除了包含来自Douze等人（2021年）的一百万个正常训练图像外，还额外增加了10,000个困难负样本对。这些困难负样本对是通过半自动化的方式从OpenImage数据集中选取的，并经过人工检查以确保其质量。

特点

NDEC数据集的特点在于它关注图像复制检测中的困难负样本问题。该数据集的测试集中包含大量与参考图像非常相似的困难负样本，而训练集中则提供了额外的困难负样本对，以促进潜在的解决方案。NDEC数据集的引入引起了人们对图像复制检测中困难负样本的关注，并为探索解决方案提供了必要的数据。

使用方法

NDEC数据集可用于评估和训练图像复制检测算法。使用该数据集时，需要注意以下几点：1）测试集包含49,252个查询图像和1,000,000个参考图像；2）训练集包含1,100,000个图像，包括900,000个基本图像和10,000个困难负样本对；3）测试集和参考集在训练时不可使用，以确保公平性；4）NDEC数据集可用于评估和训练深度度量学习算法，特别是针对困难负样本问题进行优化的算法。

背景与挑战

背景概述

图像复制检测（ICD）旨在确定查询图像是否是参考集中任何图像的编辑副本。随着图像编辑技术的发展，ICD在实际应用中变得尤为重要，例如在信息合法性和完整性保护方面。然而，目前用于ICD研究的公共数据集非常有限，且都忽视了现实世界应用中的一个关键挑战：来自硬负查询的干扰。具体而言，一些查询图像并非编辑副本，但与参考图像具有固有的相似性。这些硬负查询很容易被误认为是编辑副本，从而显著降低ICD的准确性。这一观察促使我们构建了第一个具有这一特征的ICD基准数据集。基于现有的ICD数据集，本文通过在训练集和测试集中分别添加100,000和24,252个硬负样本对，构建了一个新的数据集。此外，本文进一步揭示了ICD中解决硬负问题的独特难度，即当前度量学习与ICD之间存在根本冲突。这种冲突是：度量学习采用对称距离，而编辑副本是一个非对称（单向）的过程。例如，部分裁剪与整体参考图像接近且是编辑副本，而后者不能是前者的编辑副本（尽管距离同样小）。这一见解导致了一种非对称相似性学习方法（ASL），该方法允许两个方向（查询 ↔ 参考图像）的相似性彼此不同。实验结果表明，ASL的性能明显优于现有方法，证实了解决对称-非对称冲突对于ICD至关重要。NDEC数据集和代码可在以下链接获取。

当前挑战

NDEC数据集相关的挑战包括：1）解决领域问题：NDEC数据集的创建旨在解决图像复制检测中的硬负查询干扰问题，即一些查询图像与参考图像具有固有的相似性，但并非编辑副本。这些硬负查询容易导致误识别，从而降低ICD的准确性。2）构建过程中遇到的挑战：构建NDEC数据集的过程涉及对大量图像进行筛选和标注，以确保硬负样本的准确性和代表性。此外，NDEC数据集的构建还面临着如何平衡训练集和测试集中硬负样本数量的挑战，以更好地反映现实世界中的ICD场景。

常用场景

经典使用场景

NDEC数据集为图像复制检测（ICD）提供了一个新的基准，特别是关注那些难以区分的硬负样本问题。该数据集通过添加大量硬负查询和硬负对，显著提高了ICD的难度。NDEC数据集为研究者提供了一个新的挑战，并促进了对于图像复制检测中硬负样本问题的探索。

解决学术问题

NDEC数据集解决了图像复制检测中硬负样本问题。在现实世界的ICD系统中，一些查询图像并非编辑副本，但与参考图像具有固有的相似性，这些硬负样本容易错误地被识别为编辑副本，从而显著降低ICD的准确性。NDEC数据集通过添加硬负查询和硬负对，为解决这一问题提供了必要的数据。

衍生相关工作

NDEC数据集衍生了不对称相似性学习（ASL）方法。ASL通过学习图像特征之间的范数比率，来解决距离度量学习和ICD之间的对称-不对称冲突。ASL在NDEC数据集上取得了显著的性能提升，为解决图像复制检测中的硬负样本问题提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集