Synthetic Multimodal WebDatasets

github2026-04-22 更新2026-04-03 收录

下载链接：

https://github.com/elliot-project/synth-data-bench-training

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供了一个用于生成合成多模态数据集的管道，并将其使用`megatron-energon`和`webdataset`打包。它设计为VLM（视觉语言模型）训练框架的起点，展示了如何处理交错的图像、多轮对话和高效的数据打包。

This repository provides a pipeline for generating synthetic multimodal datasets, which are packaged using `megatron-energon` and `webdataset`. Designed as a starting point for Vision-Language Model (VLM) training frameworks, it demonstrates how to handle interleaved images, multi-turn conversations and efficient data packaging.

创建时间：

2026-03-25

原始信息汇总

数据集概述

数据集名称

Synthetic Multimodal WebDatasets for Benchmarking

数据集简介

该数据集是一个用于生成合成多模态数据集的管道，旨在为视觉语言模型（VLM）训练框架提供基准测试起点。它演示了如何处理交错的图像、多轮对话以及高效的数据打包。

主要特性

合成生成：使用随机文本（Lorem Ipsum）和随机图像（高斯噪声）生成大规模数据集。
多模态支持：支持图像描述（1张图像）、视觉问答（多轮）和交错数据（每个样本包含多张图像）。
Megatron-Energon集成：提供适用于 megatron-energon 的 TaskEncoder 和 Cookers。
数据打包：演示如何使用 cu_seqlens 将多个可变长度样本打包到单个固定长度序列中。
诊断工具：提供对打包批次中令牌分布和解码文本的高保真可视化。

数据集结构

src/generate.py：合成数据集生成的主脚本。
src/task_encoders.py：包含 TaskEncoder 实现和 Cookers。
src/viz_synthetic.py：可视化令牌分布（图像、文本、填充）。
src/viz_text.py：解码并打印打包批次中的文本。
configs/：包含用于不同类型数据集（图像描述、视觉问答、交错数据）的TOML配置文件。
ENERGON_DOCS.md：关于Energon集成的详细文档。

生成与使用流程

生成合成数据集：使用提供的配置文件生成 WebDataset 分片。
- 生成简单的视觉问答数据集：uv run python src/generate.py configs/vqa.toml
- 生成包含多张图像的交错数据集：uv run python src/generate.py configs/interleaved.toml
为Energon准备数据：在使用数据集前，必须准备元数据。
- 命令：uv run energon prepare data/vqa --non-interactive --split-ratio 1.0,0,0 --sample-type CrudeWebdataset
- 注意：使用 CrudeSample 以保持原始数据可供自定义Cookers访问。
可视化与检查：验证数据是否正确加载和打包。
- 令牌分布图：可视化用户文本、助手文本、图像和填充在批次中的分布。
  - 命令：uv run python src/viz_synthetic.py --dataset data/vqa --encoder-class DataPackingEncoder --output visualizations/vqa_tokens.png
- 文本检查器：解码实际输入模型的文本。
  - 命令：uv run python src/viz_text.py --dataset data/vqa --encoder-class DataPackingEncoder

示例

图像描述数据集（包含小图像）：示例图像地址为 https://github.com/user-attachments/assets/4cd2c5ad-139c-42e2-bcd2-31901e0ad802
视觉问答数据集（包含多轮用户-助手对话）：示例图像地址为 https://github.com/user-attachments/assets/7d9a12ed-20de-45c8-b092-c4a0bb260b86
交错数据集（同一样本中包含多张图像）：示例图像地址为 https://github.com/user-attachments/assets/ea5fbf3b-8e54-478f-9feb-b6902603163f

联系信息

联系人：tockier@cvc.uab.cat（计算机视觉中心）

搜集汇总

数据集介绍

构建方式

在视觉语言模型训练领域，高质量的多模态数据集是模型性能提升的关键。Synthetic Multimodal WebDatasets通过自动化合成流程构建，利用随机生成的文本（如Lorem Ipsum）与高斯噪声图像，模拟真实世界数据的多样性。该流程基于配置驱动，支持生成标注、视觉问答及交错式数据等多种样本类型，并通过WebDataset分片格式存储，确保数据的高效管理与扩展性。

特点

该数据集的核心特点在于其高度灵活的多模态支持能力，能够涵盖单图像标注、多轮对话式视觉问答以及单样本内多图像交错排列等多种复杂场景。集成Megatron-Energon框架后，提供了即用的TaskEncoder与Cookers组件，实现变长样本到定长序列的高效打包，并配备可视化工具，可直观分析批次内图像、文本与填充令牌的分布情况。

使用方法

使用该数据集时，首先通过配置文件生成指定类型的合成数据分片，随后利用Energon工具准备元数据以适配训练流程。用户可通过内置诊断工具可视化令牌分布或解码打包批次中的文本内容，验证数据加载与处理的正确性。该流程为视觉语言模型训练提供了可复现的基准起点，支持快速迭代与实验验证。

背景与挑战

背景概述

随着多模态人工智能的快速发展，视觉语言模型（VLM）的训练对大规模、高质量且结构化的数据集提出了迫切需求。Synthetic Multimodal WebDatasets项目由计算机视觉中心（Computer Vision Center）的研究人员开发，旨在提供一个合成多模态数据集的生成与打包流程，以支持VLM训练框架的基准测试与开发。该数据集通过生成随机文本（如Lorem Ipsum）与高斯噪声图像，模拟了图像描述、视觉问答及交错式多图像样本等多种任务场景，为模型训练中的数据预处理、序列打包及效率优化提供了标准化工具。其核心研究问题聚焦于如何高效构建与处理大规模多模态数据，以推动VLM在跨模态理解与生成任务上的性能提升，对计算机视觉与自然语言处理的融合研究具有重要的方法论意义。

当前挑战

在视觉语言模型训练领域，数据集的构建面临多重挑战。其一，真实世界多模态数据往往存在标注成本高昂、隐私限制及分布偏差等问题，而合成数据虽可规避部分限制，但如何确保其能有效模拟真实数据的复杂性与多样性，仍是领域内亟待解决的关键难题。其二，在数据集构建过程中，技术挑战尤为突出：需设计高效的序列打包机制以处理可变长度的图像与文本样本，实现多轮对话与交错图像的无缝整合；同时，还需开发可靠的诊断工具，以可视化令牌分布并验证数据加载的准确性，确保模型训练过程的稳定与高效。这些挑战共同指向了多模态数据处理中标准化与可扩展性的核心需求。

常用场景

经典使用场景

在视觉语言模型（VLM）的训练与评估领域，Synthetic Multimodal WebDatasets 提供了一个高度可控的基准测试环境。该数据集通过合成生成机制，模拟了图像描述、视觉问答以及交错式多模态对话等多种典型场景，使研究人员能够在统一框架下验证模型处理跨模态信息的能力。其经典使用场景包括利用随机文本与噪声图像构建的大规模数据流，以测试数据加载、序列打包及模型训练的端到端流程，尤其适用于评估 Megatron-Energon 等分布式训练框架的效率与扩展性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在高效多模态训练框架的设计与评估上。许多研究借鉴其数据打包与序列长度归一化方法，开发了适用于大规模分布式训练的优化器与数据加载器。同时，该数据集也催生了一系列针对合成数据质量评估、跨模态注意力机制分析以及多任务学习策略的基准测试研究，为后续真实数据场景下的模型迁移与泛化能力提供了重要的参考依据。

数据集最近研究