CSU-JPG/VisPrompt5M
收藏Hugging Face2026-04-09 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/CSU-JPG/VisPrompt5M
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
configs:
- config_name: doodles_edit
data_files:
- split: train
path: doodles_edit/train-*.parquet
- config_name: trajectory_understand
data_files:
- split: train
path: trajectory_understand/train-*.parquet
- config_name: force_understand
data_files:
- split: train
path: force_understand/train-*.parquet
- config_name: text_bbox_edit
data_files:
- split: train
path: text_bbox_edit/train-*.parquet
- config_name: visual_marker_edit
data_files:
- split: train
path: visual_marker_edit/train-*.parquet
- config_name: class2image
data_files:
- split: train
path: class2image/train-*.parquet
- config_name: text2image
data_files:
- split: train
path: text2image/train-*.parquet
default: true
- config_name: text_in_image_edit
data_files:
- split: train
path: text_in_image_edit/train-*.parquet
task_categories:
- image-to-image
- text-to-image
language:
- en
size_categories:
- 1M<n<10M
---
<div align="center">
<h2 align="center" style="margin-top: 0; margin-bottom: 15px;">
<span style="color:#0052CC">F</span><span style="color:#135FD0">l</span><span style="color:#266CD4">o</span><span style="color:#3979D7">w</span><span style="color:#4C86DB">I</span><span style="color:#6093DF">n</span><span style="color:#73A0E3">O</span><span style="color:#86ADE7">n</span><span style="color:#99BAEB">e</span>: Unifying Multimodal Generation as
<span style="color:#0052CC">I</span><span style="color:#0958CE">m</span><span style="color:#125ED0">a</span><span style="color:#1B64D2">g</span><span style="color:#246AD4">e</span><span style="color:#2D70D6">-</span><span style="color:#3676D8">i</span><span style="color:#3F7CDA">n</span><span style="color:#4882DC">,</span> <span style="color:#5188DE">I</span><span style="color:#5A8EE0">m</span><span style="color:#6394E2">a</span><span style="color:#6C9AE4">g</span><span style="color:#75A0E6">e</span><span style="color:#7EA6E8">-</span><span style="color:#87ACEA">o</span><span style="color:#90B2EC">u</span><span style="color:#99B8EE">t</span> Flow Matching
</h2>
<p align="center" style="font-size: 15px;">
<span style="color:#E74C3C; font-weight: bold;">TL;DR:</span> <strong>The first vision-centric image-in, image-out image generation model.</strong>
</p>
<p align="center" style="font-size: 16px;">
<a href="https://csu-jpg.github.io/FlowInOne.github.io/" style="text-decoration: none;">🌐 Homepage</a> |
<a href="https://github.com/CSU-JPG/FlowInOne" style="text-decoration: none;">💻 Code</a> |
<a href="https://arxiv.org/pdf/2604.06757" style="text-decoration: none;">📄 Paper</a> |
<a href="https://huggingface.co/datasets/CSU-JPG/VisPrompt5M" style="text-decoration: none;">📁 Dataset</a> |
<a href="https://huggingface.co/datasets/CSU-JPG/VPBench" style="text-decoration: none;">🌏 Benchmark</a> |
<a href="https://huggingface.co/CSU-JPG/FlowInOne" style="text-decoration: none;">🤗 Model</a>
</p>
</div>
# VisPrompt5M
This dataset is the official training dataset for [**FlowInOne**](https://csu-jpg.github.io/FlowInOne.github.io/).
**VisPrompt5M** is a large-scale image editing and generation dataset.Each sample contains an input image and an output image pair, with metadata fields for subset and category.
## Dataset subsets
This dataset currently includes the following subsets:
- `class2image`
- `doodles_edit`
- `force_understand`
- `text_bbox_edit`
- `text_in_image_edit`
- `text2image`
- `trajectory_understand`
- `visual_marker_edit`
Each subset contains a `train` split stored in Parquet shards.
## Dataset Features
Each record includes:
- `pair_id` (`string`): Stable unique ID for each image pair.
- `subset` (`string`): Subset name.
- `category` (`string`): Category or relative folder label.
- `input_relpath` (`string`): Relative path of the input image.
- `output_relpath` (`string`): Relative path of the output image.
- `input_image` (`image`): Input image bytes/path.
- `output_image` (`image`): Output image bytes/path.
## Load the dataset
### Load a specific subset
```python
from datasets import load_dataset
ds = load_dataset(
"CSU-JPG/VisPrompt5M",
"doodles_edit",
split="train",
)
```
### Load all dataset
```python
from datasets import load_dataset
subsets = [
"class2image",
"doodles_edit",
"force_understand",
"text_bbox_edit",
"text_in_image_edit",
"text2image",
"trajectory_understand",
"visual_marker_edit",
]
for subset in subsets:
ds = load_dataset("CSU-JPG/VisPrompt5M", subset, split="train", streaming=True)
```
## Citation
If you found our work useful, please consider citing:
```
@article{yi2026flowinoneunifyingmultimodalgenerationimagein,
title={FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching},
author={Junchao Yi and Rui Zhao and Jiahao Tang and Weixian Lei and Linjie Li and Qisheng Su and Zhengyuan Yang and Lijuan Wang and Xiaofeng Zhu and Alex Jinpeng Wang},
journal={arXiv preprint arXiv:2604.06757},
year={2026}
}
```
提供机构:
CSU-JPG
搜集汇总
数据集介绍

构建方式
在视觉生成模型的研究领域,数据集的构建策略直接影响模型对复杂视觉任务的理解与执行能力。VisPrompt5M数据集通过精心设计八个功能各异的子集,涵盖了从类别到图像生成、草图编辑到轨迹理解等多种视觉任务。每个子集均以输入图像与输出图像配对的形式组织,确保了数据在图像到图像及文本到图像转换任务中的一致性与完整性。数据以Parquet分片格式存储,不仅优化了大规模数据的读取效率,也为分布式训练提供了便利,体现了现代数据集工程的高效设计理念。
特点
VisPrompt5M数据集的核心特征在于其多模态与任务导向的结构设计。每个数据样本均包含唯一的配对标识、所属子集及类别标签,并明确区分输入与输出图像的相对路径及实际图像数据。这种结构支持模型在统一框架下处理多样化的视觉生成与编辑任务,如基于文本的边界框编辑或视觉标记修改。数据规模介于百万到千万级别,属于大型数据集范畴,能够为模型提供丰富的视觉模式学习资源,促进生成模型在复杂场景下的泛化能力。
使用方法
针对VisPrompt5M数据集的使用,研究人员可通过Hugging Face的datasets库灵活加载特定子集或完整数据集。例如,指定子集名称如'doodles_edit'即可加载对应训练数据,而通过循环遍历所有子集并启用流式读取,则能高效处理海量样本而不受内存限制。这种加载方式不仅简化了数据预处理流程,还支持在分布式或流式训练环境中无缝集成,为视觉生成模型的实验与迭代提供了便捷且可靠的数据支持。
背景与挑战
背景概述
在计算机视觉与生成式人工智能的交叉领域,多模态图像生成与编辑技术正经历着从单一任务向统一框架演进的关键阶段。VisPrompt5M数据集由CSU-JPG研究团队于近期构建,旨在支持其提出的FlowInOne模型,该模型作为首个以视觉为中心的“图像输入、图像输出”生成框架,致力于将图像编辑、文本到图像生成等多种任务统一于流匹配(Flow Matching)范式之下。该数据集的创建标志着研究者正尝试突破传统生成模型在任务泛化与视觉一致性方面的局限,通过大规模、结构化的图像对样本,为探索端到端的统一视觉生成模型提供了至关重要的数据基础,有望推动生成式人工智能向更高效、更通用的方向发展。
当前挑战
VisPrompt5M数据集所针对的核心领域问题是多模态图像生成与编辑的统一建模,其面临的挑战在于如何设计一个能够同时理解并执行多样化视觉指令(如基于类别的生成、草图编辑、轨迹理解、文本引导编辑等)的单一模型,这要求模型具备强大的跨任务泛化能力与细粒度的视觉语义对齐能力。在数据集构建过程中,挑战主要体现在大规模高质量图像对的采集与标注上,需要确保输入与输出图像在语义和视觉上具有明确且一致的对应关系,同时涵盖广泛、平衡的任务类别与场景,以支撑模型学习复杂、多样的视觉转换规律,避免因数据偏差或噪声导致模型性能下降。
常用场景
经典使用场景
在视觉生成与编辑领域,VisPrompt5M数据集以其大规模图像对结构,为多模态生成模型提供了核心训练资源。该数据集通过包含输入与输出图像对,支持图像到图像、文本到图像的转换任务,尤其在图像编辑、风格迁移和内容生成等场景中展现出卓越的适用性。研究人员利用其丰富的子集,如doodles_edit和text2image,训练模型实现从草图到精细图像、或从文本描述到视觉内容的精准映射,推动了生成式人工智能在视觉创作中的前沿探索。
解决学术问题
VisPrompt5M数据集针对视觉生成模型训练中数据稀缺与多样性不足的挑战,提供了大规模、结构化的图像对资源,有效解决了多模态对齐与跨模态转换的学术难题。通过整合不同编辑与生成任务,如轨迹理解和视觉标记编辑,该数据集促进了模型在复杂视觉场景下的语义理解与内容重构能力,为统一图像输入输出流匹配框架的发展奠定了数据基础,对提升生成模型的泛化性与可控性具有深远意义。
衍生相关工作
基于VisPrompt5M数据集,衍生了一系列经典研究工作,其中最突出的是FlowInOne模型,它作为首个以视觉为中心的图像输入输出生成框架,统一了多模态生成任务。该数据集还启发了对图像编辑基准VPBench的构建,促进了生成模型评估标准化。此外,相关研究扩展至文本引导编辑、视觉推理增强等领域,为后续大规模视觉语言模型的训练与优化提供了关键数据支撑,推动了生成式人工智能技术的持续演进。
以上内容由遇见数据集搜集并总结生成



