BM-6M

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/ByteDance-Seed/BM-6M

下载链接

链接失效反馈

官方服务：

资源简介：

ByteMorph-6M是一个专注于基于指令的非刚性运动图像编辑的大型基准数据集，包含了源图像、目标图像、编辑提示和对应的图像标题等信息，用于支持文本到图像和基于指令的图像编辑研究。

创建时间：

2025-05-27

原始信息汇总

数据集概述：ByteMorph-6M

数据集基本信息

许可证: CC0 1.0
任务类别: 图像到图像
规模类别: 1M < n < 10M
下载大小: 44.63 GB
数据集大小: 45.1 GB
训练集样本数: 780,308

数据集结构

特征

image_id: 字符串类型，表示从生成的视频中采样的图像对名称。
src_img: 图像类型，源图像。
tgt_img: 图像类型，编辑后的目标图像。
edit_prompt: 字符串类型，编辑的视觉语言模型（VLM）描述。
edit_prompt_rewrite_instruction: 字符串类型，将VLM描述重写为编辑指令。
src_img_caption: 字符串类型，源图像的描述。
tgt_img_caption: 字符串类型，目标图像的描述。

数据示例

json { "image_id": "[video_name]frame[i]_[j]", "src_img": "...", "tgt_img": "...", "edit_prompt": "The camera angle shifts to a closer view...", "edit_prompt_rewrite_instruction": "Zoom in the camera angle...", "src_img_caption": "Several individuals are present...", "tgt_img_caption": "Several individuals are gathered..." }

数据集详情

原始视频来源: 由Seaweed生成，并采样为源-目标图像编辑对。
处理方式: 通过视觉语言模型（VLM）进一步过滤和标注。

用途

主要用途: 用于基于文本和指令的图像编辑研究。
目标用户: 计算机视觉、图像生成、图像处理和AIGC领域的研究人员和爱好者。

使用方法

bash git lfs clone https://huggingface.co/datasets/ByteDance-Seed/BM-6M

相关资源

项目页面: https://boese0601.github.io/bytemorph/
基准测试: https://huggingface.co/datasets/ByteDance-Seed/BM-Bench
数据集演示: https://huggingface.co/datasets/ByteDance-Seed/BM-6M-Demo
Gradio演示: https://huggingface.co/spaces/Boese0601/ByteMorpher-Demo
模型检查点: https://huggingface.co/ByteDance-Seed/BM-Model
代码: https://github.com/ByteDance-Seed/BM-code

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，非刚性运动图像编辑任务的研究一直面临数据稀缺的挑战。ByteMorph-6M数据集通过创新性的构建方法填补了这一空白，其原始视频素材由Seaweed平台生成，经过专业采样处理形成源-目标图像编辑对。这些图像帧经过视觉语言模型（VLM）的严格筛选和标注，确保了数据质量。每个样本包含详细的编辑提示、改写指令以及源/目标图像描述，构建过程充分考虑了非刚性运动编辑的特殊需求。

特点

作为专注于非刚性运动图像编辑的大规模基准数据集，ByteMorph-6M具有显著特点。该数据集包含78万多个高质量样本，每个样本都配有精确的编辑指令和改写提示，支持复杂的视角变换、物体形变等编辑任务。独特的双图像结构（源图像和目标图像）配合多层次文本描述，为模型训练提供了丰富的监督信号。数据规模达到45GB，涵盖多样化的非刚性运动场景，为相关研究提供了充分的实验素材。

使用方法

研究人员可通过git-lfs工具便捷地获取该数据集，完整克隆命令为'git lfs clone https://huggingface.co/datasets/ByteDance-Seed/BM-6M'。数据集采用标准的JSON格式组织，包含图像ID、源/目标图像、编辑提示等多维度字段。使用者可根据需要灵活提取图像对及其关联文本信息，特别适合用于训练和评估基于指令的图像编辑模型。为降低使用门槛，项目方还提供了演示样例和基准测试平台供参考。

背景与挑战

背景概述

随着计算机视觉技术的快速发展，图像编辑领域逐渐从静态图像处理转向动态非刚性运动编辑。ByteMorph-6M数据集由ByteDance-Seed团队创建，旨在解决非刚性运动图像编辑的研究空白。该数据集专注于通过指令驱动的图像编辑，涵盖摄像机视角变化、物体形变、人体关节运动等复杂动态场景。其核心研究问题在于如何通过自然语言指令精确指导图像编辑过程，从而生成符合预期的动态效果。作为该领域的重要基准，ByteMorph-6M为图像生成与编辑研究提供了丰富的数据支持，推动了AIGC技术在动态场景中的应用。

当前挑战

ByteMorph-6M数据集面临的挑战主要体现在两个方面：首先，在领域问题层面，非刚性运动编辑涉及复杂的空间和时间关系建模，如何准确捕捉和再现动态变化成为关键难题；其次，在数据构建过程中，从原始视频中筛选具有代表性的帧对并生成精确的编辑指令需要大量人工干预和视觉语言模型的协同工作，确保数据质量与多样性之间的平衡颇具挑战性。此外，大规模动态图像数据的高效存储与处理也对技术基础设施提出了较高要求。

常用场景

经典使用场景

在计算机视觉领域，非刚性运动图像编辑一直是一个具有挑战性的研究方向。BM-6M数据集通过提供大量经过标注的图像对及其编辑指令，为这一领域的研究提供了丰富的实验素材。该数据集最经典的使用场景是训练和评估基于指令的图像编辑模型，特别是那些涉及相机视角变化、物体形变、人体关节运动等非刚性变换的任务。研究人员可以利用这些数据开发能够理解复杂编辑指令并生成相应变换结果的AI模型。

解决学术问题

BM-6M数据集有效解决了计算机视觉领域关于非刚性运动图像编辑的几个关键学术问题。首先，它填补了现有数据集主要关注静态图像或刚性变换的空白，为非刚性运动研究提供了专门的数据支持。其次，通过提供详细的编辑指令和图像对标注，该数据集有助于探索自然语言指令与视觉内容编辑之间的映射关系。这些贡献推动了图像生成和处理领域向更复杂、更动态的方向发展。

衍生相关工作

BM-6M数据集已经催生了一系列相关研究工作。基于该数据集，研究人员开发了ByteMorpher等先进的图像编辑模型，这些模型在非刚性运动编辑任务上展现了卓越的性能。同时，该数据集也促进了文本到图像生成模型的改进，特别是在理解复杂编辑指令方面。此外，围绕该数据集建立的基准测试平台BM-Bench，为相关算法的评估提供了标准化环境。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集