five

NHR-Edit|图像编辑数据集|自然语言处理数据集

收藏
arXiv2025-07-19 更新2025-07-22 收录
图像编辑
自然语言处理
下载链接:
https://riko0.github.io/No-Humans-Required/
下载链接
链接失效反馈
资源简介:
NHR-Edit是一个开放的数据集,包含358,000个经过严格验证的三元组,用于高保真度的图像编辑训练。该数据集由Layer Team和SALUTEDEV创建,旨在解决图像编辑中缺乏高质量三元组数据的问题。数据集内容涵盖了多个领域、分辨率、指令复杂性和风格,旨在帮助训练模型更好地理解和执行自然语言指令。创建过程中使用了自动化的模块化流程,无需人类干预,并通过内置的Gemini验证器直接对指令遵守程度和美观度进行评分。该数据集可用于解决图像编辑中存在的复杂问题,如物体删除、风格转换等,有助于推动基于自然语言指令的图像编辑研究。
提供机构:
Layer Team, SALUTEDEV
创建时间:
2025-07-19
原始信息汇总

No Humans Required (NHR) 数据集概述

数据集简介

  • 名称: No Humans Required (NHR)
  • 核心成果: NHR-Edit 数据集
  • 目标: 为高级图像编辑模型的训练和评估提供高质量、像素级完美的图像编辑序列

关键创新

  • 全自动流程: 消除传统数据集中人工标注的偏见和低效问题
  • 技术栈:
    • 视觉语言模型(VLMs)
    • 文本到图像生成器(Text2Image)
    • 大语言模型(LLMs)
    • 其他先进AI范式

生成流程

  1. 起点生成:

    • 使用Flux1.schnell模型生成高质量输入图像
    • 采用OpenAI O3作为顶级LLM
  2. 自动序列延续:

    • LLM生成复杂编辑指令
    • 高级图像编辑模型执行编辑操作
  3. 智能过滤与质量控制:

    • 使用SOTA模型评估图像编辑对的质量
    • 确保编辑准确反映指令并保持视觉保真度
  4. 可扩展性与多样性:

    • 无需人工干预的持续数据生成能力
    • 支持创建针对特定研究需求的大规模多样化数据集

自主数据集生成管道

  1. LLM生成多样化图像编辑任务提示
  2. 使用Flux1.dev模型生成初始图像
  3. 专有DiT模型执行图像编辑
  4. Qwen模型进行质量评估(像素级精度/指令遵循/美学)
  5. 使用反转和引导组合操作进行强增强
  6. 基于反转或组合质量进行反向一致性过滤

衍生成果

  • Bagel-NHR-Edit:
    • 基于NHR-Edit微调的LoRA变体
    • 在ImgEditBench和GEdit-Bench上表现优于基础模型

相关文献

Kuprashevich, M., et al. (2025). NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining. arXiv. [https://arxiv.org/abs/2507.14119]

AI搜集汇总
数据集介绍
main_image_url
构建方式
NHR-Edit数据集通过自动化、模块化的流水线构建,利用公开生成模型生成高质量的三元组⟨原始图像、指令、编辑后图像⟩。该流水线包括提示工程模块、文本到图像生成器、指令引导的图像编辑器和多阶段验证堆栈,确保编辑质量。通过反转和组合引导,数据集规模扩大了约2.2倍,实现了无需人工标注的大规模高质量训练数据。
特点
NHR-Edit数据集包含358k个高质量三元组,覆盖多种编辑操作,如对象添加、移除、替换和风格调整等。其特点在于编辑指令的多样性和复杂性,能够处理多部分指令,如同时执行添加、删除和全局风格变化。此外,数据集还包含多种图像风格和分辨率,确保真实世界的多样性。
使用方法
NHR-Edit数据集适用于训练和评估指令引导的图像编辑模型。用户可以通过加载数据集中的三元组,输入原始图像和编辑指令,生成编辑后的图像。此外,数据集还可用于模型自我改进,通过生成新的训练数据来优化模型性能。具体使用时,建议结合多阶段验证堆栈,确保编辑质量和指令遵循性。
背景与挑战
背景概述
NHR-Edit数据集由Layer Team和SALUTEDEV团队于2025年7月发布,旨在解决生成式模型在自然语言指令引导的图像编辑任务中面临的高质量训练数据稀缺问题。该数据集通过自动化流程构建了358,000组严格验证的三元组⟨原始图像, 编辑指令, 编辑后图像⟩,突破了传统人工标注的规模限制。其创新性地利用预训练编辑模型自生成数据,结合基于Gemini的专用验证器进行质量筛选,支持复杂指令编辑、风格迁移和对象操作等多维度任务,成为当前指令引导图像编辑领域规模最大且质量最优的开放数据集。
当前挑战
NHR-Edit需应对双重挑战:在领域层面,需确保编辑结果精准遵循指令要求(如仅修改指定区域、保持物理合理性和风格一致性),同时克服生成模型常见的语义漂移和细节失真问题;在构建层面,面临自动化流水线的三大技术瓶颈——缺乏可靠的编辑质量评估指标、多模型级联导致的误差累积,以及合成数据与真实场景的分布差距。特别地,其验证模块需在无参考图像条件下检测细微编辑缺陷,这对传统视觉评估方法提出了革新性要求。
常用场景
经典使用场景
在计算机视觉领域,NHR-Edit数据集为基于自然语言指令的图像编辑任务提供了高质量的训练样本。该数据集通过自动化流程生成大量⟨原始图像,编辑指令,编辑后图像⟩三元组,特别适用于训练和评估生成模型在复杂编辑任务中的表现。其经典使用场景包括但不限于对象添加与移除、风格转换、背景替换等任务,为研究人员提供了丰富的实验素材。
衍生相关工作
该数据集已衍生出多个重要研究工作,最典型的是BAGEL-NHR-EDIT模型,这是基于NHR-Edit数据对BAGEL模型进行LoRA微调的变体,在ImgEdit-Bench和GEdit-Bench等基准测试中表现出色。此外,其自动化数据挖掘方法论为后续研究如OmniEdit、AnyEdit等提供了技术范式,推动了自改进生成模型领域的发展。数据集包含的35.8万高质量三元组也成为评估图像编辑模型的新标准。
数据集最近研究
最新研究方向
在生成式模型快速发展的背景下,NHR-Edit数据集为基于自然语言指令的图像编辑任务提供了高质量的三元组数据⟨原始图像, 指令, 编辑后图像⟩。该数据集通过自动化流水线挖掘跨领域、分辨率和风格的高保真样本,解决了传统方法依赖人工标注和外部工具链的局限性。前沿研究聚焦于三个方面:首先,利用生成模型自身能力构建自改进的数据挖掘框架,通过多轮编辑迭代和严格验证筛选优质样本;其次,开发基于Gemini模型微调的专用验证器,显著提升了编辑质量评估的准确性;最后,探索数据增强技术如语义反转和组合引导,将数据集规模扩大约2.2倍。该数据集在跨数据集评估中表现优异,推动了指令引导图像编辑模型的自监督微调和偏好优化研究,为构建无需人类干预的持续学习系统提供了重要基础设施。
相关研究论文
  • 1
    NoHumansRequired: Autonomous High-Quality Image Editing Triplet MiningLayer Team, SALUTEDEV · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

MineNetCD

MineNetCD数据集由慕尼黑工业大学等机构创建,是一个全球矿区变化检测的综合基准数据集。该数据集包含超过70k对的双时相高分辨率遥感图像,覆盖全球100个矿区,总面积约6756.88平方公里。数据集的创建过程结合了半自动标注和专家手动标注,确保了数据的精细度和准确性。MineNetCD数据集主要应用于矿区环境监测和可持续发展研究,旨在通过高精度的变化检测技术,帮助实现矿区的可持续管理和环境保护。

arXiv 收录

全国兴趣点(POI)数据

  POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。  POI包含的信息及其衍生信息主要包含三个部分:

CnOpenData 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录