WebLI

github2024-09-20 更新2024-09-21 收录

下载链接：

https://github.com/jinbo0906/Awesome-MLLM-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含10亿张图片和120亿个文本的数据集，用于多语言语言-图像模型的训练。

A dataset consisting of 1 billion images and 12 billion text samples, designed for training multilingual language-image models.

创建时间：

2024-09-02

原始信息汇总

Awesome-MLLM-Datasets

数据集概述

该项目旨在收集和整理用于多模态大模型训练的各种数据集，包括但不限于预训练数据、指令微调数据和上下文学习数据。目标是提供一个全面的资源库，支持研究人员在开发和优化多模态AI系统时更容易访问高质量的数据集。

数据集分类

预训练数据集

名称	图像数量	文本数量	图像-文本对数量	论文	链接	类型
WebLI	10B	12B	12B	PaLI: A Jointly-Scaled Multilingual Language-Image Model	Link	Captions(109 languages)
LAION-5B	5.9B	5.9B	5.9B	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(Multiple languages)
LAION-en	2.3B	2.3B	2.3B	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(English)
ALIGN	1.8B	1.8B	1.8B	Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	Link	Captions(English)
DataComp	1.4B	1.4B	1.4B	DATACOMP: In search of the next generation of multimodal datasets	Link	Captions(English)
COYO	747M	747M	747M	COYO-700M: Large-scale Image-Text Pair Dataset	Link	Captions(English)
LAION-COCO	600M	600M	600M	LAION COCO: 600M SYNTHETIC CAPTIONS FROM LAION2B-EN	Link	Captions(English)
LAION-400M	400M	400M	400M	LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs	Link	Captions(English)
Episodic WebLI	400M	400M	400M	PaLI-X: On Scaling up a Multilingual Vision and Language Model	-	Captions(English)
CLIP	400M	400M	400M	Learning Transferable Visual Models From Natural Language Supervision	Link	Captions(English)
LTIP	312M	312M	312M	Flamingo: a Visual Language Model for Few-Shot Learning	-	Captions(English)
FILIP	300M	300M	300M	FILIP: Fine-grained Interactive Language-Image Pre-Training	-	Captions(English)
LAION-zh	142M	142M	142M	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(Chinese)
Obelics	353M	115M	141M	OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents	Link	Interleaved image-text web documents
MMC4	571M	43B	101.2M	Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text	Link	Interleaved image-text
Wukong	101M	101M	101M	WuKong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework	Link	Captions(Chinese)
M3W	185M	182GB	43.3M	Flamingo: a Visual Language Model for Few-Shot Learning	-	Captions(English)
WIT	11.5M	37.6M	37.6M	WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning	Link	Captions(English)
GQA	113K	22M	22M	GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering	Link	Visual Reasoning and Compositional Question Answering(English)
CC12M	12.4M	12.4M	12.4M	Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Link	Captions(English)
Red Caps	12M	12M	12M	RedCaps: Web-curated image-text data created by the people, for the people	Link	Captions(English)
Visual Genome	108k	4.5M	4.5M	Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations	Link	Annotations(English)
DVQA	300K	3.5M	3.5M	DVQA: Understanding Data Visualizations via Question Answering	Link	Question answering(English)
CC3M	3.3M	3.3M	3.3M	Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning	Link	Captions(English)
MS-COCO	328k	2.5M	2.5M	Microsoft COCO: Common Objects in Context	Link	Object detection,Segmentation,Caption(English)
AI Challenger Captions	300K	1.5M	1.5M	AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding	Link	Captions(English)
VQA v2	265K	1.4M	1.4M	Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering	Link	Visual question answering(English)
SBU(Image Caption)	1M	1M	1M	Im2Text: Describing Images Using 1 Million Captioned Photographs	Link	Captions(English)
OCR-VQA	207K	1M	1M	OCR-VQA: Visual Question Answering by Reading Text in Images	Link	Visual question answering(English)
COCO Caption	164K	1M	1M	Microsoft COCO Captions: Data Collection and Evaluation Server	Link	Object detection,Segmentation,Caption(English)
CC595k	595K	595K	595K	Visual Instruction Tuning	Link	Captions(English)
Visual-7W	47.3K	328K	328K	Visual7W: Grounded Question Answering in Images	-	-
Flickr30k	31K	158K	158K	From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions	Link	Annotations(English)
Text Captions	28K	145K	145K	TextCaps: a Dataset for Image Captioning with Reading Comprehension	-	-
RefCOCO	20K	142K	142K	ReferItGame: Referring to Objects in Photographs of Natural Scenes	-	-

多模态指令微调数据集

待补充

上下文学习数据集

待补充

多模态思维链数据集

待补充

多模态RLHF数据集

待补充

评估基准数据集

待补充

搜集汇总

数据集介绍

构建方式

WebLI数据集的构建基于大规模的图像和文本对，通过联合扩展的多语言语言-图像模型（PaLI）进行处理。该数据集包含10亿张图像和12亿条文本描述，涵盖109种语言。其构建过程涉及对图像和文本进行配对，确保每张图像都有相应的多语言描述，从而为多模态学习提供了丰富的资源。

特点

WebLI数据集的主要特点在于其规模庞大和多语言支持。拥有10亿张图像和12亿条文本描述，使其成为多模态学习领域的宝贵资源。此外，数据集支持109种语言的描述，极大地增强了其在全球范围内的适用性和多样性。

使用方法

WebLI数据集适用于多模态大模型的预训练和指令微调。研究人员可以通过访问GitHub上的链接获取数据集，并将其用于开发和优化多模态AI系统。数据集的多语言特性使其特别适合于跨语言的多模态学习任务，如图像描述生成和视觉问答系统。

背景与挑战

背景概述

WebLI数据集是多模态大模型训练领域中的一个重要组成部分，由主要研究人员或机构于2022年创建。该数据集的核心研究问题集中在如何高效地进行多语言图像与文本的联合训练，以提升模型的跨语言理解能力。WebLI数据集包含10亿张图像和12亿条文本描述，覆盖了109种语言，极大地丰富了多模态模型的训练资源。其影响力在于为多语言环境下的图像识别和文本理解提供了强有力的数据支持，推动了多模态AI系统的发展。

当前挑战

WebLI数据集在构建过程中面临多项挑战。首先，多语言数据的收集和处理需要克服语言多样性和数据质量不均的问题。其次，数据集的规模庞大，对存储和计算资源提出了高要求。此外，如何确保不同语言之间的数据平衡，以及如何处理多语言环境下的噪声数据，也是该数据集需要解决的重要问题。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练效果产生了深远影响。

常用场景

经典使用场景

WebLI数据集在多模态大模型训练中扮演着至关重要的角色，尤其在图像与文本的联合预训练场景中。其庞大的数据规模（10亿张图像和12亿条文本）为模型提供了丰富的视觉和语言信息，使得模型能够在多语言环境下进行高效的跨模态学习。通过WebLI，研究者可以训练出能够理解和生成多语言图像描述的模型，这在图像检索、视觉问答和图像生成等任务中具有广泛的应用前景。

解决学术问题

WebLI数据集解决了多模态学习中数据稀缺和语言多样性不足的问题。传统的多模态数据集往往集中在单一语言或小规模数据上，限制了模型的泛化能力和跨语言应用。WebLI通过提供大规模、多语言的图像-文本对，使得研究者能够在更广泛的语言和文化背景下验证和优化模型，推动了多模态学习领域的发展，并为未来的跨语言智能系统奠定了基础。

衍生相关工作

基于WebLI数据集，研究者们开发了多种多模态模型和应用。例如，PaLI模型利用WebLI进行预训练，显著提升了多语言图像描述的生成质量。此外，WebLI还激发了多个跨语言视觉问答（VQA）系统的研究，如Flamingo和FILIP，这些系统在处理多语言图像和文本时表现出色。WebLI的成功应用也推动了其他多模态数据集的开发，如LAION-5B和Wukong，进一步丰富了多模态学习的研究资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集