five

WebLI

收藏
github2024-09-20 更新2024-09-21 收录
下载链接:
https://github.com/jinbo0906/Awesome-MLLM-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含10亿张图片和120亿个文本的数据集,用于多语言语言-图像模型的训练。

A dataset consisting of 1 billion images and 12 billion text samples, designed for training multilingual language-image models.
创建时间:
2024-09-02
原始信息汇总

Awesome-MLLM-Datasets

数据集概述

该项目旨在收集和整理用于多模态大模型训练的各种数据集,包括但不限于预训练数据、指令微调数据和上下文学习数据。目标是提供一个全面的资源库,支持研究人员在开发和优化多模态AI系统时更容易访问高质量的数据集。

数据集分类

预训练数据集

名称 图像数量 文本数量 图像-文本对数量 论文 链接 类型
WebLI 10B 12B 12B PaLI: A Jointly-Scaled Multilingual Language-Image Model Link Captions(109 languages)
LAION-5B 5.9B 5.9B 5.9B LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(Multiple languages)
LAION-en 2.3B 2.3B 2.3B LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(English)
ALIGN 1.8B 1.8B 1.8B Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Link Captions(English)
DataComp 1.4B 1.4B 1.4B DATACOMP: In search of the next generation of multimodal datasets Link Captions(English)
COYO 747M 747M 747M COYO-700M: Large-scale Image-Text Pair Dataset Link Captions(English)
LAION-COCO 600M 600M 600M LAION COCO: 600M SYNTHETIC CAPTIONS FROM LAION2B-EN Link Captions(English)
LAION-400M 400M 400M 400M LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Link Captions(English)
Episodic WebLI 400M 400M 400M PaLI-X: On Scaling up a Multilingual Vision and Language Model - Captions(English)
CLIP 400M 400M 400M Learning Transferable Visual Models From Natural Language Supervision Link Captions(English)
LTIP 312M 312M 312M Flamingo: a Visual Language Model for Few-Shot Learning - Captions(English)
FILIP 300M 300M 300M FILIP: Fine-grained Interactive Language-Image Pre-Training - Captions(English)
LAION-zh 142M 142M 142M LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(Chinese)
Obelics 353M 115M 141M OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents Link Interleaved image-text web documents
MMC4 571M 43B 101.2M Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text Link Interleaved image-text
Wukong 101M 101M 101M WuKong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework Link Captions(Chinese)
M3W 185M 182GB 43.3M Flamingo: a Visual Language Model for Few-Shot Learning - Captions(English)
WIT 11.5M 37.6M 37.6M WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Link Captions(English)
GQA 113K 22M 22M GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering Link Visual Reasoning and Compositional Question Answering(English)
CC12M 12.4M 12.4M 12.4M Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Link Captions(English)
Red Caps 12M 12M 12M RedCaps: Web-curated image-text data created by the people, for the people Link Captions(English)
Visual Genome 108k 4.5M 4.5M Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Link Annotations(English)
DVQA 300K 3.5M 3.5M DVQA: Understanding Data Visualizations via Question Answering Link Question answering(English)
CC3M 3.3M 3.3M 3.3M Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning Link Captions(English)
MS-COCO 328k 2.5M 2.5M Microsoft COCO: Common Objects in Context Link Object detection,Segmentation,Caption(English)
AI Challenger Captions 300K 1.5M 1.5M AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding Link Captions(English)
VQA v2 265K 1.4M 1.4M Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Link Visual question answering(English)
SBU(Image Caption) 1M 1M 1M Im2Text: Describing Images Using 1 Million Captioned Photographs Link Captions(English)
OCR-VQA 207K 1M 1M OCR-VQA: Visual Question Answering by Reading Text in Images Link Visual question answering(English)
COCO Caption 164K 1M 1M Microsoft COCO Captions: Data Collection and Evaluation Server Link Object detection,Segmentation,Caption(English)
CC595k 595K 595K 595K Visual Instruction Tuning Link Captions(English)
Visual-7W 47.3K 328K 328K Visual7W: Grounded Question Answering in Images - -
Flickr30k 31K 158K 158K From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions Link Annotations(English)
Text Captions 28K 145K 145K TextCaps: a Dataset for Image Captioning with Reading Comprehension - -
RefCOCO 20K 142K 142K ReferItGame: Referring to Objects in Photographs of Natural Scenes - -

多模态指令微调数据集

  • 待补充

上下文学习数据集

  • 待补充

多模态思维链数据集

  • 待补充

多模态RLHF数据集

  • 待补充

评估基准数据集

  • 待补充
搜集汇总
数据集介绍
main_image_url
构建方式
WebLI数据集的构建基于大规模的图像和文本对,通过联合扩展的多语言语言-图像模型(PaLI)进行处理。该数据集包含10亿张图像和12亿条文本描述,涵盖109种语言。其构建过程涉及对图像和文本进行配对,确保每张图像都有相应的多语言描述,从而为多模态学习提供了丰富的资源。
特点
WebLI数据集的主要特点在于其规模庞大和多语言支持。拥有10亿张图像和12亿条文本描述,使其成为多模态学习领域的宝贵资源。此外,数据集支持109种语言的描述,极大地增强了其在全球范围内的适用性和多样性。
使用方法
WebLI数据集适用于多模态大模型的预训练和指令微调。研究人员可以通过访问GitHub上的链接获取数据集,并将其用于开发和优化多模态AI系统。数据集的多语言特性使其特别适合于跨语言的多模态学习任务,如图像描述生成和视觉问答系统。
背景与挑战
背景概述
WebLI数据集是多模态大模型训练领域中的一个重要组成部分,由主要研究人员或机构于2022年创建。该数据集的核心研究问题集中在如何高效地进行多语言图像与文本的联合训练,以提升模型的跨语言理解能力。WebLI数据集包含10亿张图像和12亿条文本描述,覆盖了109种语言,极大地丰富了多模态模型的训练资源。其影响力在于为多语言环境下的图像识别和文本理解提供了强有力的数据支持,推动了多模态AI系统的发展。
当前挑战
WebLI数据集在构建过程中面临多项挑战。首先,多语言数据的收集和处理需要克服语言多样性和数据质量不均的问题。其次,数据集的规模庞大,对存储和计算资源提出了高要求。此外,如何确保不同语言之间的数据平衡,以及如何处理多语言环境下的噪声数据,也是该数据集需要解决的重要问题。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练效果产生了深远影响。
常用场景
经典使用场景
WebLI数据集在多模态大模型训练中扮演着至关重要的角色,尤其在图像与文本的联合预训练场景中。其庞大的数据规模(10亿张图像和12亿条文本)为模型提供了丰富的视觉和语言信息,使得模型能够在多语言环境下进行高效的跨模态学习。通过WebLI,研究者可以训练出能够理解和生成多语言图像描述的模型,这在图像检索、视觉问答和图像生成等任务中具有广泛的应用前景。
解决学术问题
WebLI数据集解决了多模态学习中数据稀缺和语言多样性不足的问题。传统的多模态数据集往往集中在单一语言或小规模数据上,限制了模型的泛化能力和跨语言应用。WebLI通过提供大规模、多语言的图像-文本对,使得研究者能够在更广泛的语言和文化背景下验证和优化模型,推动了多模态学习领域的发展,并为未来的跨语言智能系统奠定了基础。
衍生相关工作
基于WebLI数据集,研究者们开发了多种多模态模型和应用。例如,PaLI模型利用WebLI进行预训练,显著提升了多语言图像描述的生成质量。此外,WebLI还激发了多个跨语言视觉问答(VQA)系统的研究,如Flamingo和FILIP,这些系统在处理多语言图像和文本时表现出色。WebLI的成功应用也推动了其他多模态数据集的开发,如LAION-5B和Wukong,进一步丰富了多模态学习的研究资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作