OpenGVLab/OmniCorpus-YT

Name: OpenGVLab/OmniCorpus-YT
Creator: OpenGVLab
Published: 2025-03-20 12:44:21
License: 暂无描述

Hugging Face2025-03-20 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/OpenGVLab/OmniCorpus-YT

下载链接

链接失效反馈

官方服务：

资源简介：

OmniCorpus-YT数据集包含从YouTube视频中收集的1000万份图像-文本交错文档。该数据集具有大规模、多样性和灵活的格式，适用于多模态大语言模型的预训练、长文本-图像检索以及进一步的数据集研究。数据集由三个部分组成：OmniCorpus-CC、OmniCorpus-CW和OmniCorpus-YT。数据格式为Parquet文件，提供了加载和处理数据的示例代码。数据集发布在CC-BY-4.0许可下，主要用于研究活动。

The OmniCorpus-YT dataset contains 10 million image-text interleaved documents collected from Youtube videos. These documents are extracted from Youtube video frames as images and collected subtitles as texts. The dataset demonstrates several advantages, including larger data scale, richer data diversity, and more flexible data format. The dataset is organized in Parquet file format, containing video IDs, image timestamps, and text content.

提供机构：

OpenGVLab

搜集汇总

数据集介绍

构建方式

在视觉语言多模态研究领域，大规模图文交错数据对于提升模型的多模态理解能力至关重要。OmniCorpus-YT数据集的构建策略别具匠心，它从YouTube视频平台中采集了约1000万个视频，通过提取视频关键帧作为图像，并同步收集字幕文本，形成图文交错的文档结构。每个文档以Parquet格式存储，包含视频ID、图像时间戳列表和文本段落列表，其中图像与文本按时间顺序交错排列。用户可通过提供的Python采样工具，利用yt-dlp和ffmpeg从视频URL中精确抽取指定时间戳的图像帧，从而还原完整的多模态内容序列。

特点

OmniCorpus-YT作为OmniCorpus的子集，继承了其宏大规模的基因，其母数据集包含86亿图像与1.696万亿文本标记，规模远超以往。该数据集展现出三大核心特点：首先，数据规模空前，图像量是此前最大多模态数据集LAION-5B的1.7倍，文本量更是其12.5倍；其次，来源极其多元，融合了英文与中文双语内容，涵盖通用网页与视频平台，兼顾文本中心与视觉中心文档；最后，格式高度灵活，流式数据格式可适配纯文本语料、图文对或交错数据等多种结构，为下游任务提供极大便利。

使用方法

该数据集主要面向多模态大语言模型的预训练，近年来的Flamingo、MM1等前沿模型已证实图文交错数据能有效促进多模态上下文学习。使用时，推荐通过fastparquet库而非pandas直接读取Parquet文件，以避免嵌套结构引发的解析错误。用户可按行迭代处理文档，将每个文档转为字典后，利用json.loads解析图像时间戳与文本内容。此外，数据集提供的CLIP图文相似度元数据，可将其转化为长文本检索任务的数据源，进而支撑多模态RAG等应用，或作为数据筛选策略研究的基准资源。

背景与挑战

背景概述

在通往通用人工智能的征途中，多模态大语言模型（MLLM）的崛起对大规模、高质量且灵活的图像-文本交织数据提出了迫切需求。为此，上海人工智能实验室（OpenGVLab）的研究团队于2024年发布了OmniCorpus数据集，该成果被ICLR 2025接收为Spotlight论文。OmniCorpus以其前所未有的规模与多样性，整合了来自Common Crawl、中文互联网资源及YouTube视频三大来源的海量数据，共计包含86亿张图像与1.696万亿文本Token，超越了此前最大的多模态数据集LAION-5B。其核心研究问题在于如何构建一个统一、大规模且格式灵活的多模态语料库，以支撑MLLM的预训练、少样本上下文学习及多模态检索等前沿任务。该数据集的开源，为多模态人工智能领域的研究提供了坚实的基石，显著推动了数据驱动的模型能力边界。

当前挑战

OmniCorpus所应对的领域挑战在于，现有图像-文本对数据集（如LAION-5B）规模受限且缺乏文本与图像的灵活交织结构，难以满足MLLM对上下文学习和长文本-图像检索能力的需求。其构建过程亦面临多重技术难题：首先，从海量异构网页（如Common Crawl）中提取主体内容并过滤噪声，需设计鲁棒的解析与清洗流水线；其次，从YouTube视频中采样关键帧并同步字幕，涉及视频流解码与时间戳对齐的复杂工程；再者，需平衡中英文双语数据的质量与多样性，避免文化偏见；最后，在确保数据规模的同时，必须严格遵循各来源（如Common Crawl、YouTube）的使用条款与版权法规，这对数据合规性提出了严苛要求。

常用场景

经典使用场景

OmniCorpus-YT作为OmniCorpus数据集的重要组成部分，专注于从YouTube视频中提取图像与文本交织的多模态内容，为多模态大语言模型的预训练提供了高质量的数据基础。其经典使用场景在于支持多模态上下文学习，通过将视频关键帧与对应字幕文本进行交错排列，使模型能够在图文交织的语境中捕捉跨模态的语义关联。这种数据组织形式尤其适用于训练具备视觉推理能力的多模态大模型，如Flamingo、IDEFICS等，能够有效增强模型在未见任务上的少样本学习表现。

解决学术问题

在学术研究层面，OmniCorpus-YT解决了多模态语料库规模不足与多样性匮乏的核心瓶颈。此前的主流数据集如LAION-5B虽规模庞大，但缺乏文本与图像的深层交织结构，限制了模型对复杂跨模态关系的建模能力。OmniCorpus-YT通过提供10亿级别图文交织文档，使得研究者能够探索长文本-图像检索、多模态检索增强生成等前沿课题，并推动数据筛选策略的优化研究。其发布的元数据属性更为数据过滤提供了丰富维度，大幅降低了构建高质量训练集的计算成本。

衍生相关工作

OmniCorpus-YT的发布催生了一系列具有影响力的衍生工作。其预训练模型OmniCorpus-InternVL为多模态理解设立了新的性能标杆，验证了大规模图文交织数据对模型能力的提升效果。研究者基于该数据集开发了更高效的数据过滤流水线，通过利用其提供的CLIP相似度等元数据，实现了针对性的数据质量评估。此外，该数据集推动了长文本-图像检索领域的发展，相关检索模型在传统图像检索基础上，能够基于更复杂的自然语言描述进行精准匹配，为多模态RAG系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集