WebLI|图像文本模型数据集|多语言处理数据集

github2024-09-20 更新2024-09-21 收录

图像文本模型

多语言处理

下载链接：

https://github.com/jinbo0906/Awesome-MLLM-Datasets

下载链接

链接失效反馈

资源简介：

一个包含10亿张图片和120亿个文本的数据集，用于多语言语言-图像模型的训练。

创建时间：

2024-09-02

原始信息汇总

Awesome-MLLM-Datasets

数据集概述

该项目旨在收集和整理用于多模态大模型训练的各种数据集，包括但不限于预训练数据、指令微调数据和上下文学习数据。目标是提供一个全面的资源库，支持研究人员在开发和优化多模态AI系统时更容易访问高质量的数据集。

数据集分类

预训练数据集

名称	图像数量	文本数量	图像-文本对数量	论文	链接	类型
WebLI	10B	12B	12B	PaLI: A Jointly-Scaled Multilingual Language-Image Model	Link	Captions(109 languages)
LAION-5B	5.9B	5.9B	5.9B	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(Multiple languages)
LAION-en	2.3B	2.3B	2.3B	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(English)
ALIGN	1.8B	1.8B	1.8B	Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	Link	Captions(English)
DataComp	1.4B	1.4B	1.4B	DATACOMP: In search of the next generation of multimodal datasets	Link	Captions(English)
COYO	747M	747M	747M	COYO-700M: Large-scale Image-Text Pair Dataset	Link	Captions(English)
LAION-COCO	600M	600M	600M	LAION COCO: 600M SYNTHETIC CAPTIONS FROM LAION2B-EN	Link	Captions(English)
LAION-400M	400M	400M	400M	LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs	Link	Captions(English)
Episodic WebLI	400M	400M	400M	PaLI-X: On Scaling up a Multilingual Vision and Language Model	-	Captions(English)
CLIP	400M	400M	400M	Learning Transferable Visual Models From Natural Language Supervision	Link	Captions(English)
LTIP	312M	312M	312M	Flamingo: a Visual Language Model for Few-Shot Learning	-	Captions(English)
FILIP	300M	300M	300M	FILIP: Fine-grained Interactive Language-Image Pre-Training	-	Captions(English)
LAION-zh	142M	142M	142M	LAION-5B: An open large-scale dataset for training next generation image-text models	Link	Captions(Chinese)
Obelics	353M	115M	141M	OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents	Link	Interleaved image-text web documents
MMC4	571M	43B	101.2M	Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text	Link	Interleaved image-text
Wukong	101M	101M	101M	WuKong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework	Link	Captions(Chinese)
M3W	185M	182GB	43.3M	Flamingo: a Visual Language Model for Few-Shot Learning	-	Captions(English)
WIT	11.5M	37.6M	37.6M	WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning	Link	Captions(English)
GQA	113K	22M	22M	GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering	Link	Visual Reasoning and Compositional Question Answering(English)
CC12M	12.4M	12.4M	12.4M	Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Link	Captions(English)
Red Caps	12M	12M	12M	RedCaps: Web-curated image-text data created by the people, for the people	Link	Captions(English)
Visual Genome	108k	4.5M	4.5M	Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations	Link	Annotations(English)
DVQA	300K	3.5M	3.5M	DVQA: Understanding Data Visualizations via Question Answering	Link	Question answering(English)
CC3M	3.3M	3.3M	3.3M	Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning	Link	Captions(English)
MS-COCO	328k	2.5M	2.5M	Microsoft COCO: Common Objects in Context	Link	Object detection,Segmentation,Caption(English)
AI Challenger Captions	300K	1.5M	1.5M	AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding	Link	Captions(English)
VQA v2	265K	1.4M	1.4M	Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering	Link	Visual question answering(English)
SBU(Image Caption)	1M	1M	1M	Im2Text: Describing Images Using 1 Million Captioned Photographs	Link	Captions(English)
OCR-VQA	207K	1M	1M	OCR-VQA: Visual Question Answering by Reading Text in Images	Link	Visual question answering(English)
COCO Caption	164K	1M	1M	Microsoft COCO Captions: Data Collection and Evaluation Server	Link	Object detection,Segmentation,Caption(English)
CC595k	595K	595K	595K	Visual Instruction Tuning	Link	Captions(English)
Visual-7W	47.3K	328K	328K	Visual7W: Grounded Question Answering in Images	-	-
Flickr30k	31K	158K	158K	From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions	Link	Annotations(English)
Text Captions	28K	145K	145K	TextCaps: a Dataset for Image Captioning with Reading Comprehension	-	-
RefCOCO	20K	142K	142K	ReferItGame: Referring to Objects in Photographs of Natural Scenes	-	-

多模态指令微调数据集

待补充

上下文学习数据集

待补充

多模态思维链数据集

待补充

多模态RLHF数据集

待补充

评估基准数据集

待补充

AI搜集汇总

数据集介绍

构建方式

WebLI数据集的构建基于大规模的图像和文本对，通过联合扩展的多语言语言-图像模型（PaLI）进行处理。该数据集包含10亿张图像和12亿条文本描述，涵盖109种语言。其构建过程涉及对图像和文本进行配对，确保每张图像都有相应的多语言描述，从而为多模态学习提供了丰富的资源。

特点

WebLI数据集的主要特点在于其规模庞大和多语言支持。拥有10亿张图像和12亿条文本描述，使其成为多模态学习领域的宝贵资源。此外，数据集支持109种语言的描述，极大地增强了其在全球范围内的适用性和多样性。

使用方法

WebLI数据集适用于多模态大模型的预训练和指令微调。研究人员可以通过访问GitHub上的链接获取数据集，并将其用于开发和优化多模态AI系统。数据集的多语言特性使其特别适合于跨语言的多模态学习任务，如图像描述生成和视觉问答系统。

背景与挑战

背景概述

WebLI数据集是多模态大模型训练领域中的一个重要组成部分，由主要研究人员或机构于2022年创建。该数据集的核心研究问题集中在如何高效地进行多语言图像与文本的联合训练，以提升模型的跨语言理解能力。WebLI数据集包含10亿张图像和12亿条文本描述，覆盖了109种语言，极大地丰富了多模态模型的训练资源。其影响力在于为多语言环境下的图像识别和文本理解提供了强有力的数据支持，推动了多模态AI系统的发展。

当前挑战

WebLI数据集在构建过程中面临多项挑战。首先，多语言数据的收集和处理需要克服语言多样性和数据质量不均的问题。其次，数据集的规模庞大，对存储和计算资源提出了高要求。此外，如何确保不同语言之间的数据平衡，以及如何处理多语言环境下的噪声数据，也是该数据集需要解决的重要问题。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练效果产生了深远影响。

常用场景

经典使用场景

WebLI数据集在多模态大模型训练中扮演着至关重要的角色，尤其在图像与文本的联合预训练场景中。其庞大的数据规模（10亿张图像和12亿条文本）为模型提供了丰富的视觉和语言信息，使得模型能够在多语言环境下进行高效的跨模态学习。通过WebLI，研究者可以训练出能够理解和生成多语言图像描述的模型，这在图像检索、视觉问答和图像生成等任务中具有广泛的应用前景。

解决学术问题

WebLI数据集解决了多模态学习中数据稀缺和语言多样性不足的问题。传统的多模态数据集往往集中在单一语言或小规模数据上，限制了模型的泛化能力和跨语言应用。WebLI通过提供大规模、多语言的图像-文本对，使得研究者能够在更广泛的语言和文化背景下验证和优化模型，推动了多模态学习领域的发展，并为未来的跨语言智能系统奠定了基础。

衍生相关工作

基于WebLI数据集，研究者们开发了多种多模态模型和应用。例如，PaLI模型利用WebLI进行预训练，显著提升了多语言图像描述的生成质量。此外，WebLI还激发了多个跨语言视觉问答（VQA）系统的研究，如Flamingo和FILIP，这些系统在处理多语言图像和文本时表现出色。WebLI的成功应用也推动了其他多模态数据集的开发，如LAION-5B和Wukong，进一步丰富了多模态学习的研究资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。