ByteMorph-6M

Name: ByteMorph-6M
Creator: 字节跳动种子实验室（ByteDance Seed）, 南加州大学（University of Southern California）, 东京大学（University of Tokyo）, 加州大学伯克利分校（University of California Berkeley）, 斯坦福大学（Stanford University）, 加州大学洛杉矶分校（University of California Los Angeles）
Published: 2025-06-04 01:39:47
License: 暂无描述

arXiv2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/ByteDance-Seed/BM-6M

下载链接

链接失效反馈

官方服务：

资源简介：

ByteMorph-6M是一个大规模的数据集，包含超过640万对高分辨率图像编辑示例，用于训练。该数据集由字节跳动种子实验室、南加州大学、东京大学、加州大学伯克利分校、斯坦福大学和加州大学洛杉矶分校的研究人员创建。数据集的内容包括各种非刚性运动类型，如相机移动、物体变形、人体姿态和复杂交互。数据集创建过程采用运动引导的数据生成、分层合成技术和自动字幕生成，以确保数据的多样性、真实性和语义一致性。ByteMorph-6M旨在解决图像编辑中非刚性运动的问题，为图像编辑模型提供了丰富的训练数据。

ByteMorph-6M is a large-scale dataset containing over 6.4 million pairs of high-resolution image editing examples for model training. It was developed by researchers from ByteDance Seed Laboratory, University of Southern California, University of Tokyo, University of California, Berkeley, Stanford University, and University of California, Los Angeles. The dataset encompasses various non-rigid motion types, such as camera movement, object deformation, human poses, and complex interactions. During its creation, motion-guided data generation, layered synthesis techniques, and automatic caption generation were employed to ensure the diversity, authenticity, and semantic consistency of the dataset. ByteMorph-6M aims to address the challenges of non-rigid motion in image editing, offering rich training data for image editing models.

提供机构：

字节跳动种子实验室（ByteDance Seed）, 南加州大学（University of Southern California）, 东京大学（University of Tokyo）, 加州大学伯克利分校（University of California Berkeley）, 斯坦福大学（Stanford University）, 加州大学洛杉矶分校（University of California Los Angeles）

创建时间：

2025-06-04

原始信息汇总

ByteMorph-6M 数据集概述

数据集基本信息

许可证: CC0-1.0
任务类别: 图像到图像
规模类别: 1M<n<10M
下载大小: 44,625,567,266 字节
数据集大小: 45,095,600,735.92 字节

数据集结构

特征

image_id: 字符串类型
src_img: 图像类型（源图像）
tgt_img: 图像类型（目标图像）
edit_prompt: 字符串类型（编辑提示）
edit_prompt_rewrite_instruction: 字符串类型（编辑提示重写指令）
src_img_caption: 字符串类型（源图像描述）
tgt_img_caption: 字符串类型（目标图像描述）

数据划分

训练集:
- 样本数量: 780,308
- 字节数: 45,095,600,735.92

数据集详情

数据来源: 原始视频由 Seaweed 生成，并采样为源-目标图像编辑对。
数据处理: 帧进一步通过 VLM 进行过滤和标注。
可视化子集: 访问 BM-6M-Demo。

预期用途

主要用途: 用于文本到图像和基于指令的图像编辑研究。
目标用户: 计算机视觉、图像生成、图像处理和 AIGC 领域的研究人员和爱好者。

数据集使用方式

bash git lfs clone https://huggingface.co/datasets/ByteDance-Seed/BM-6M

引用

bibtex @misc{chang2025bytemorphbenchmarkinginstructionguidedimage, title={ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions}, author={Di Chang and Mingdeng Cao and Yichun Shi and Bo Liu and Shengqu Cai and Shijie Zhou and Weilin Huang and Gordon Wetzstein and Mohammad Soleymani and Peng Wang}, year={2025}, eprint={2506.03107}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03107}, }

搜集汇总

数据集介绍

构建方式

ByteMorph-6M数据集的构建采用了运动引导的数据生成方法，结合分层合成技术和自动化标注流程。研究团队首先利用图像到视频模型生成多样化的视频序列，从中提取具有运动感知的帧对，并通过自动化流程生成描述动态转换的自然语言指令。每个数据实例包含源图像、目标图像、运动指令以及两幅图像的描述性标注，确保了数据的语义一致性和视觉真实性。数据集构建过程中还采用了分层合成技术，以增强场景的多样性和复杂性。

特点

ByteMorph-6M数据集以其对非刚性运动的全面覆盖而著称，包含超过600万对高分辨率图像编辑样本，涵盖相机视角变化、物体形变、人体姿态调整以及复杂交互等多种动态编辑场景。数据集的独特之处在于其专注于非刚性运动编辑，弥补了现有数据集中动态空间关系表达不足的缺陷。此外，数据集通过精心设计的评估基准ByteMorph-Bench，提供了613个具有挑战性的测试样本，进一步推动了动态编辑任务的研究。

使用方法

ByteMorph-6M数据集适用于训练和评估基于指令的图像编辑模型，特别是在处理非刚性运动编辑任务时表现出色。研究人员可利用该数据集微调扩散变换器（DiT）等生成模型，以提升模型在动态编辑场景中的表现。数据集中的图像对和自然语言指令可直接用于监督学习，而评估基准则为模型性能提供了标准化测试平台。此外，数据集支持多参考编辑和连续运动推理等高级研究任务，为计算机视觉领域的动态编辑研究提供了丰富资源。

背景与挑战

背景概述

ByteMorph-6M是由字节跳动Seed团队联合南加州大学、东京大学、加州大学伯克利分校、斯坦福大学和加州大学洛杉矶分校的研究人员于2025年6月推出的创新性数据集。该数据集聚焦于计算机视觉领域中一个长期被忽视的核心问题——基于自然语言指令的非刚性运动图像编辑。传统图像编辑方法主要关注静态场景或刚性变换，而ByteMorph-6M通过包含600万对高分辨率图像编辑样本，首次系统性地解决了相机视角变换、物体形变、人体姿态调整和复杂交互等动态编辑任务。该数据集采用运动引导数据生成、分层合成技术和自动标注等方法构建，显著提升了生成式模型处理动态空间关系和场景演化的能力，为图像编辑领域开辟了新的研究方向。

当前挑战

ByteMorph-6M主要应对两大挑战：领域问题方面，现有指令编辑方法难以处理非刚性运动带来的复杂几何变换和时空连续性要求，如人体关节运动导致的像素级形变或相机移动引发的全局视角变化；数据构建方面，确保视频生成模型输出的帧间运动与文本指令的精确对齐极具挑战性，需要开发创新的运动描述标注框架。此外，保持大规模生成数据的语义一致性和视觉真实性，以及平衡不同运动类别的数据分布（相机运动28%、物体运动25%、人体运动20%、交互16%、相机变焦11%）都是构建过程中需要解决的关键技术难题。

常用场景

经典使用场景

ByteMorph-6M作为当前最大的非刚性运动图像编辑数据集，其核心应用场景聚焦于通过自然语言指令驱动复杂动态编辑任务。在计算机视觉领域，该数据集为研究相机视角变换、物体形变、人体关节运动及多对象交互等非刚性运动提供了标准化测试平台。其超过600万对高分辨率图像序列支持从基础研究到工业级模型的训练需求，特别是在需要保持语义一致性的连续帧编辑任务中展现出独特价值。

实际应用

在实际应用层面，ByteMorph-6M显著提升了影视后期、虚拟试衣和交互式设计工具的智能化水平。其支持的实时指令编辑功能可将传统视频特效制作周期从小时级缩短至秒级，在电商平台的动态商品展示中实现视角自由切换，并为AR/VR场景提供高保真的姿态迁移能力。医疗影像领域则利用其非刚性变形特性进行器官运动模拟，辅助手术规划系统的可视化开发。

衍生相关工作

基于该数据集衍生的ByteMorpher模型已成为动态编辑的新基线，催生了OmniControl-Finetuned等改进架构。其构建方法论启发了后续VideoMorph-3D等跨模态数据集的建设，相关评估协议被MagicBrush-2.0等新一代编辑基准采纳。在产业界，SeedEdit 1.6和Flux-Kontext等商业系统均借鉴了其运动解耦训练策略，推动形成了'文本-运动-图像'的三元学习范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集