five

Step1X-Edit|图像编辑数据集|计算机视觉数据集

收藏
arXiv2025-04-25 更新2025-04-26 收录
图像编辑
计算机视觉
下载链接:
https://github.com/stepfun-ai/Step1X-Edit
下载链接
链接失效反馈
资源简介:
Step1X-Edit数据集是由StepFun研究机构创建的一个高质量、大规模的图像编辑数据集,旨在缩小开源和闭源图像编辑系统之间的性能差距,并推动图像编辑领域的进一步研究。该数据集包含超过100万个图像指令对,涵盖对象操作、属性修改、布局调整和风格化等多种编辑操作,为开发有效的图像编辑模型提供了丰富的资源。此外,Step1X-Edit数据集还采用了多轮标注策略和双语标注,以确保标注质量并增强数据集的可用性。
提供机构:
StepFun
创建时间:
2025-04-25
原始信息汇总

Step1X-Edit 数据集概述

1. 数据集简介

  • 名称: Step1X-Edit
  • 类型: 图像编辑模型及相关数据集
  • 目标: 提供与GPT-4o和Gemini2 Flash等闭源模型性能相当的图像编辑能力
  • 核心技术: 采用多模态LLM处理参考图像和用户编辑指令,结合扩散图像解码器生成目标图像

2. 关键组件

3. 模型版本

4. 技术规格

硬件要求

模型版本 峰值GPU内存(512/786/1024) 28步推理时间(512/786/1024)
Step1X-Edit 42.5GB/46.5GB/49.8GB 5s/11s/22s
Step1X-Edit-FP8 31GB/31.5GB/34GB 6.8s/13.5s/25s

软件依赖

  • Python ≥3.10.0
  • PyTorch ≥2.2 (推荐torch==2.3.1或2.5.1)
  • CUDA 12.1
  • flash-attn 2.7.2+

5. 获取方式

6. 评估结果

  • 在GEdit-Bench上显著优于现有开源基线
  • 接近领先专有模型的性能

7. 许可信息

  • 许可证: Apache License 2.0
  • 许可证文件可在GitHub和HuggingFace仓库中找到

8. 相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
Step1X-Edit数据集的构建采用了高度系统化的流程,旨在覆盖广泛的图像编辑任务。研究团队首先通过互联网爬取多样化的图像编辑示例,并深入分析后将其分类为11个主要类别,包括对象操作、属性修改、布局调整和风格化等。随后,设计了一个可扩展的数据生成管道,通过结合多模态大型语言模型(如Step-1o和GPT-4o)和人类标注者的双重验证,生成了超过100万组高质量的图像-指令-目标图像三元组。每个类别均采用特定的预处理和生成策略,例如使用Florence-2进行对象标注、SAM2进行分割,以及ControlNet结合扩散模型实现属性修改,确保了数据的多样性和代表性。
特点
Step1X-Edit数据集以其规模和质量脱颖而出,成为当前开源图像编辑数据集中规模最大的资源之一。该数据集不仅覆盖了11类常见编辑任务,还通过冗余增强标注和双语(中英文)标注策略,显著提升了语义一致性和实用性。其独特之处在于采用了多轮递归标注和风格化上下文参考,有效减少了视觉语言模型的幻觉问题。此外,数据集中每个样本均经过严格的筛选和人工验证,确保了编辑指令的精确性和目标图像的高保真度,为训练通用图像编辑模型提供了坚实的基础。
使用方法
Step1X-Edit数据集专为支持基于自然语言指令的图像编辑模型开发而设计。研究人员可利用该数据集训练多模态大型语言模型(MLLM)与扩散模型的联合架构,通过输入参考图像和编辑指令生成目标图像。数据集中丰富的任务类别和细粒度标注支持模型在对象操作、风格迁移等复杂场景下的性能优化。此外,配套的GEdit-Bench评估基准提供了真实用户指令的测试集,支持自动指标(如VIEScore)和人工评估,便于横向比较模型在语义一致性、感知质量等方面的表现。数据集的双语特性还扩展了其在跨语言应用中的潜力。
背景与挑战
背景概述
Step1X-Edit数据集由StepFun团队于2025年发布,旨在推动开源图像编辑模型的发展,缩小其与闭源模型(如GPT-4o和Gemini2 Flash)之间的性能差距。该数据集专注于基于自然语言指令的图像编辑任务,通过结合多模态大语言模型(MLLM)和扩散模型,实现了高质量的图像生成与编辑。Step1X-Edit的发布不仅为研究人员提供了丰富的训练资源,还通过其创新的数据生成管道和评估基准GEdit-Bench,显著提升了图像编辑领域的开源技术水平。
当前挑战
Step1X-Edit数据集面临的挑战主要包括两个方面:一是领域问题的挑战,即如何准确理解复杂的用户指令并实现高保真度的图像编辑,尤其是在处理细微或组合性指令时;二是构建过程中的挑战,包括如何生成大规模且多样化的高质量图像-指令对,以及如何通过多轮标注和人工验证确保数据的语义一致性和可靠性。此外,数据集的构建还需克服多语言支持(中英文)和成本控制的难题。
常用场景
经典使用场景
Step1X-Edit数据集在图像编辑领域被广泛应用于基于自然语言指令的复杂图像修改任务。该数据集通过精心设计的11类编辑任务(如主体增删、风格转换、色调调整等),为研究者提供了丰富的训练样本,支持模型学习从语义理解到像素级操作的端到端编辑能力。其多轮标注策略和双语支持特性,使得该数据集特别适合开发能够处理细粒度、多语言指令的通用图像编辑系统。
实际应用
在实际应用中,该数据集支撑的模型已应用于专业图像处理软件和社交平台的内容创作工具链。摄影师可通过自然语言指令实现智能修图,如人像美化中的皮肤瑕疵消除;电商平台利用其主体替换功能快速生成商品展示图;媒体机构则运用其风格转换能力批量制作多艺术风格的新闻配图。在GEdit-Bench测试中,模型对真实用户指令的执行成功率达89.3%,显著提升了非专业用户的创作效率。
衍生相关工作
基于该数据集的技术方案催生了多个衍生研究方向:OmniGen通过统一Transformer架构实现了跨模态编辑任务的联合训练;AnyEdit提出任务感知路由机制提升复杂指令的处理能力;SmartEdit探索了多轮对话式编辑的可行性。这些工作共同推动了从单任务专用模型向通用化、交互式图像编辑系统的演进,相关成果在CVPR 2025会议中形成了专门的图像生成与编辑研讨专题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录