five

SD-ImageNet, SD-COCO

收藏
arXiv2023-08-10 更新2024-06-21 收录
下载链接:
https://github.com/moskomule/dataset-contamination
下载链接
链接失效反馈
官方服务:
资源简介:
本研究中,理化学研究所先进智能项目中心的Ryuichiro Hataya等人使用StableDiffusion模型生成了两个大规模数据集SD-ImageNet和SD-COCO,分别对应ImageNet和COCO数据集的类别和描述。SD-ImageNet包含140万个图像,每个类别有1400张图像,而SD-COCO则生成了56.5万个图像。这些数据集是通过关闭水印和安全检查功能生成的,以模拟真实世界中用户可能的操作。研究旨在探讨这些生成图像如何影响计算机视觉模型的性能,特别是在图像分类、图像描述和图像生成等任务中的表现。通过这些实验,研究者发现生成图像对模型性能有负面影响,尤其是在高比例的生成图像污染下。

In this study, Ryuichiro Hataya and colleagues from the RIKEN Center for Advanced Intelligence Project (AIP) utilized the Stable Diffusion model to generate two large-scale datasets: SD-ImageNet and SD-COCO, which align with the categories and descriptions of the standard ImageNet and COCO datasets, respectively. SD-ImageNet contains 1.4 million images, with 1400 images per category, while SD-COCO consists of 565,000 images. These datasets were generated with watermarking and safety check functionalities disabled, to simulate the typical operations performed by real-world users. The core objective of this research is to explore how these synthetic generated images impact the performance of computer vision models, with a specific focus on their performance across tasks including image classification, image captioning, and image generation. Through these experiments, the researchers found that synthetic generated images exert a negative impact on model performance, particularly when the dataset is contaminated with a high proportion of such generated images.
提供机构:
理化学研究所先进智能项目中心
创建时间:
2022-11-15
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,大规模生成模型如StableDiffusion的兴起引发了关于生成图像可能污染未来数据集的担忧。SD-ImageNet和SD-COCO数据集的构建旨在模拟这种污染过程。具体而言,SD-ImageNet基于ImageNet ILSVRC-2012的类别名称,通过生成提示如“一张非洲象的照片”,利用StableDiffusion模型为每个类别生成1400张摄影风格图像,总计约140万张。SD-COCO则采用COCO caption数据集中的文本描述作为提示,生成了56.5万张图像。生成过程中禁用了水印和安全检查功能,以模拟用户可能分享的无标识生成图像。随后,通过随机替换原始数据集中20%、40%和80%的真实图像,创建了混合数据集,以评估不同污染比例对下游任务的影响。
特点
生成图像数据集展现出高视觉保真度与潜在缺陷并存的特点。从表面观察,SD-ImageNet和SD-COCO中的图像能够紧密贴合文本提示,呈现自然的外观,例如SD-ImageNet中的动物类别和SD-COCO中的场景描述。然而,细致审视可发现生成图像常包含不自然的细节,如SD-ImageNet中大象的双鼻或SD-COCO中未能准确呈现的“蓝白盘子”。分析显示,这些生成图像在模式多样性上显著低于真实数据,其覆盖的数据分布模式较为有限,导致在训练模型时可能引发泛化能力下降。此外,生成图像对下游任务的性能影响呈现负向趋势,尤其在图像分类、图像描述和图像生成任务中,污染比例的增加会加剧性能退化。
使用方法
该数据集主要用于评估生成图像对计算机视觉模型训练的潜在影响。研究人员可通过加载混合数据集,训练标准模型如ResNet-50、SwinTransformer或BLIP,并在验证集上测试性能,以量化污染效应。例如,在图像分类任务中,使用IN/SD-n%数据集训练模型后,在ImageNet验证集上测量准确率下降程度。在图像描述任务中,利用CO/SD-n%数据集微调BLIP模型,并通过BLEU、SPICE等指标评估生成文本的质量变化。此外,数据集支持对生成图像的模式覆盖分析,通过计算精度和召回率指标,揭示生成数据与真实数据分布之间的差异。这些实验有助于理解生成图像在数据增强或数据集构建中的局限性,并为未来数据收集和模型发布提供实证依据。
背景与挑战
背景概述
SD-ImageNet与SD-COCO数据集由RIKEN先进智能项目中心与京都大学的研究团队于2023年构建,旨在探究大规模生成模型对计算机视觉数据集未来质量的潜在影响。随着DALL·E 2、Midjourney和Stable Diffusion等文本到图像生成模型的普及,互联网上涌现出大量合成图像,这些图像可能污染未来基于网络爬取构建的数据集。该研究通过使用Stable Diffusion模型生成与ImageNet和COCO数据集规模匹配的合成图像,模拟了数据集被生成图像污染的情景,并评估了污染对图像分类、图像描述和图像生成等下游任务性能的影响。这一工作揭示了生成模型在数据生态中的潜在风险,为数据集构建和模型发布提供了重要的实证依据。
当前挑战
该数据集旨在解决生成图像污染对计算机视觉模型性能影响的评估问题,其核心挑战在于生成图像可能缺乏真实数据的多样性和模式覆盖,导致训练模型泛化能力下降。构建过程中的挑战包括:生成图像的质量控制,例如避免水印和排除不当内容;确保生成提示的多样性与真实性,以模拟用户实际使用场景;以及设计合理的污染模拟方案,以区分生成图像缺陷与领域偏移效应。此外,检测生成图像的难度较高,传统频谱分析方法对现代生成模型失效,增加了未来数据清洗的复杂性。
常用场景
经典使用场景
在计算机视觉领域,SD-ImageNet和SD-COCO数据集被广泛用于模拟大规模生成模型对数据污染的潜在影响。这些数据集通过StableDiffusion模型生成,分别对应ImageNet分类任务和COCO图像描述任务,为研究者提供了评估生成图像对下游任务性能影响的基准工具。在经典使用场景中,研究者通过将生成图像与真实数据混合,训练各类视觉模型,从而量化污染程度对模型准确性和泛化能力的侵蚀作用。
实际应用
在实际应用中,SD-ImageNet和SD-COCO为数据质量控制提供了重要参考。互联网内容平台和数据集构建机构可借鉴其污染模拟方法,开发自动过滤生成图像的算法,以维护数据源的纯净性。同时,生成模型开发者能够依据实验结果优化水印嵌入策略,确保生成内容可追溯,从而减少对视觉识别系统训练数据的潜在负面影响。
衍生相关工作
该数据集衍生了一系列关注生成数据安全性的经典研究。例如,基于污染模拟的鲁棒性评估框架被扩展到对抗样本检测和分布偏移分析中;自监督学习方法如MAE在后续工作中被验证为抵御生成污染的有效途径。此外,针对生成图像的模式覆盖缺陷,研究者发展了更精细的多样性度量指标,并探索了提示工程对生成质量的影响,推动了生成模型评估与数据治理交叉领域的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作