DEAL-300K
收藏Hugging Face2026-01-31 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/FlyHorseJ/DEAL-300K
下载链接
链接失效反馈官方服务:
资源简介:
DEAL-300K是一个专注于扩散基图像编辑区域定位(DIML)的大规模数据集,包含超过30万张经过标注的图像。该数据集旨在应对扩散基图像编辑技术带来的挑战,这些技术能够实现与原始内容无缝融合的语义级编辑。DEAL-300K的构建利用了多模态大型语言模型(MLLMs)进行指令驱动的编辑,并结合主动学习标注流程,确保了数据的多样性和高质量。数据集中的原始图像来源于MS COCO数据集,编辑指令由细调的Qwen-VL生成。DEAL-300K支持多种图像尺寸(从128×512到512×576不等),适用于通用场景的扩散基图像编辑定位任务。与其他公开的DIML数据集相比,DEAL-300K在规模和多样性上具有显著优势。
DEAL-300K is a large-scale dataset focused on diffusion-based image editing region localization (DIML), containing over 300,000 annotated images. This dataset aims to address the challenges posed by diffusion-based image editing techniques, which enable semantic-level edits that seamlessly fuse with original image content. The construction of DEAL-300K leverages multimodal large language models (MLLMs) for instruction-driven editing, paired with an active learning annotation workflow to ensure data diversity and high quality. The original images in the dataset are sourced from the MS COCO dataset, while the editing instructions are generated by fine-tuned Qwen-VL. DEAL-300K supports multiple image sizes ranging from 128×512 to 512×576, and is applicable to diffusion-based image editing localization tasks for general scenarios. Compared with other publicly available DIML datasets, DEAL-300K exhibits significant advantages in terms of scale and diversity.
创建时间:
2026-01-20
搜集汇总
数据集介绍

构建方式
在扩散模型驱动的图像编辑技术日益普及的背景下,DEAL-300K数据集通过创新的构建流程实现了大规模高质量标注。该数据集以MS COCO图像为基础,利用经过微调的Qwen-VL多模态大语言模型生成编辑指令,随后借助InstructPix2Pix模型执行语义级编辑操作,生成编辑后的图像。为确保标注的精确性与多样性,研究团队引入了主动学习标注机制,通过迭代优化过程对编辑区域进行像素级掩码标注,最终形成了包含超过30万对图像的资源,覆盖了从128×512到512×576等多种分辨率,为扩散编辑区域定位任务提供了坚实的数据基础。
使用方法
该数据集主要服务于扩散图像编辑区域定位(DIML)任务的研究与开发。使用者可通过官方渠道获取数据集,其中包含源图像、编辑后图像以及对应的像素级编辑区域掩码。研究人员可利用这些数据训练或评估能够精确定位扩散编辑区域的模型,例如论文中提出的结合视觉基础模型与多频率提示调优的基准方法。数据集支持对模型进行端到端的训练,并在其专用测试集上进行性能验证;同时,其通用性设计也便于在外部数据集(如CoCoGlide)上进行跨域性能评估,推动DIML技术在内容真实性验证等实际应用中的发展。
背景与挑战
背景概述
随着扩散模型在图像编辑领域的兴起,基于语义的直观编辑技术显著降低了高质量图像处理的门槛,但同时也引发了关于技术滥用的担忧。传统数据集多聚焦于扩散生成图像的二元分类或手动篡改区域的定位,难以应对扩散编辑内容与原始图像无缝融合所带来的新挑战。为此,研究团队于2024年4月推出了DEAL-300K数据集,该数据集由超过30万张标注图像构成,专门针对扩散式图像篡改定位任务设计。其构建依托多模态大语言模型驱动的指令编辑流程,并结合主动学习标注策略,在规模与质量上均实现了突破,为图像取证与安全领域提供了关键资源。
当前挑战
扩散式图像篡改定位领域面临的核心挑战在于,编辑区域与原始内容在语义和纹理上高度融合,使得传统基于视觉不一致性的检测方法难以奏效。DEAL-300K数据集旨在应对这一难题,通过精确标注编辑边界,支持模型学习细微的篡改痕迹。在构建过程中,研究团队需克服大规模高质量标注的困难,利用多模态大语言模型生成多样化的编辑指令,并设计主动学习流程以迭代优化标注质量,确保数据在场景多样性和编辑真实性之间取得平衡。
常用场景
经典使用场景
在数字图像取证与安全领域,DEAL-300K数据集为扩散模型驱动的图像编辑区域定位任务提供了关键支撑。该数据集通过大规模、高质量的标注图像,专门用于训练和评估模型在复杂场景下识别由扩散技术生成的编辑区域的能力。其经典使用场景包括构建基准测试平台,推动算法在像素级定位精度上的优化,为研究者提供了一个统一且具有挑战性的评估环境,以系统比较不同方法在应对无缝编辑挑战时的性能表现。
解决学术问题
DEAL-300K数据集有效应对了扩散模型编辑带来的新型学术挑战。传统数据集多聚焦于二值分类或手动篡改定位,难以捕捉扩散编辑与原始内容自然融合的特性。该数据集通过引入基于指令的编辑生成与主动学习标注,解决了编辑区域边界模糊、语义复杂的定位难题,为图像取证研究提供了更贴近现实威胁的数据基础。其意义在于推动了图像真实性验证从粗粒度检测向细粒度、像素级分析演进,为防范AI生成内容滥用提供了重要的学术工具。
实际应用
在实际应用层面,DEAL-300K数据集支撑的技术可广泛应用于数字内容安全与真实性验证。例如,在新闻媒体与社交平台中,基于该数据集训练的模型能够自动检测经过扩散模型编辑的图片,辅助识别深度伪造或恶意篡改内容,维护信息可信度。在司法取证与版权保护领域,该技术有助于追溯图像编辑痕迹,为证据鉴定提供技术支持。此外,在创意产业中,它也可用于区分人工创作与AI辅助生成的内容,促进透明和伦理的创作实践。
数据集最近研究
最新研究方向
随着扩散模型在图像编辑领域的广泛应用,其生成的图像与原始内容高度融合,给篡改检测带来了前所未有的挑战。DEAL-300K数据集应运而生,专注于扩散基图像篡改区域定位(DIML)任务,通过大规模多模态语言模型驱动的指令编辑与主动学习标注策略,构建了超过30万张标注图像的前沿资源。该数据集推动了基于视觉基础模型与多频提示调优的基准方法发展,能够精准捕捉扩散编辑区域的细微特征,在像素级定位上取得了超过80%的F1分数,为数字取证与内容安全领域提供了关键的技术支撑,并促进了生成式人工智能治理与可信媒体生态的前沿探索。
以上内容由遇见数据集搜集并总结生成



