five

WebLI|图像文本模型数据集|多语言处理数据集

收藏
github2024-09-20 更新2024-09-21 收录
图像文本模型
多语言处理
下载链接:
https://github.com/jinbo0906/Awesome-MLLM-Datasets
下载链接
链接失效反馈
资源简介:
一个包含10亿张图片和120亿个文本的数据集,用于多语言语言-图像模型的训练。
创建时间:
2024-09-02
原始信息汇总

Awesome-MLLM-Datasets

数据集概述

该项目旨在收集和整理用于多模态大模型训练的各种数据集,包括但不限于预训练数据、指令微调数据和上下文学习数据。目标是提供一个全面的资源库,支持研究人员在开发和优化多模态AI系统时更容易访问高质量的数据集。

数据集分类

预训练数据集

名称 图像数量 文本数量 图像-文本对数量 论文 链接 类型
WebLI 10B 12B 12B PaLI: A Jointly-Scaled Multilingual Language-Image Model Link Captions(109 languages)
LAION-5B 5.9B 5.9B 5.9B LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(Multiple languages)
LAION-en 2.3B 2.3B 2.3B LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(English)
ALIGN 1.8B 1.8B 1.8B Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Link Captions(English)
DataComp 1.4B 1.4B 1.4B DATACOMP: In search of the next generation of multimodal datasets Link Captions(English)
COYO 747M 747M 747M COYO-700M: Large-scale Image-Text Pair Dataset Link Captions(English)
LAION-COCO 600M 600M 600M LAION COCO: 600M SYNTHETIC CAPTIONS FROM LAION2B-EN Link Captions(English)
LAION-400M 400M 400M 400M LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Link Captions(English)
Episodic WebLI 400M 400M 400M PaLI-X: On Scaling up a Multilingual Vision and Language Model - Captions(English)
CLIP 400M 400M 400M Learning Transferable Visual Models From Natural Language Supervision Link Captions(English)
LTIP 312M 312M 312M Flamingo: a Visual Language Model for Few-Shot Learning - Captions(English)
FILIP 300M 300M 300M FILIP: Fine-grained Interactive Language-Image Pre-Training - Captions(English)
LAION-zh 142M 142M 142M LAION-5B: An open large-scale dataset for training next generation image-text models Link Captions(Chinese)
Obelics 353M 115M 141M OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents Link Interleaved image-text web documents
MMC4 571M 43B 101.2M Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text Link Interleaved image-text
Wukong 101M 101M 101M WuKong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework Link Captions(Chinese)
M3W 185M 182GB 43.3M Flamingo: a Visual Language Model for Few-Shot Learning - Captions(English)
WIT 11.5M 37.6M 37.6M WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Link Captions(English)
GQA 113K 22M 22M GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering Link Visual Reasoning and Compositional Question Answering(English)
CC12M 12.4M 12.4M 12.4M Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Link Captions(English)
Red Caps 12M 12M 12M RedCaps: Web-curated image-text data created by the people, for the people Link Captions(English)
Visual Genome 108k 4.5M 4.5M Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Link Annotations(English)
DVQA 300K 3.5M 3.5M DVQA: Understanding Data Visualizations via Question Answering Link Question answering(English)
CC3M 3.3M 3.3M 3.3M Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning Link Captions(English)
MS-COCO 328k 2.5M 2.5M Microsoft COCO: Common Objects in Context Link Object detection,Segmentation,Caption(English)
AI Challenger Captions 300K 1.5M 1.5M AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding Link Captions(English)
VQA v2 265K 1.4M 1.4M Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Link Visual question answering(English)
SBU(Image Caption) 1M 1M 1M Im2Text: Describing Images Using 1 Million Captioned Photographs Link Captions(English)
OCR-VQA 207K 1M 1M OCR-VQA: Visual Question Answering by Reading Text in Images Link Visual question answering(English)
COCO Caption 164K 1M 1M Microsoft COCO Captions: Data Collection and Evaluation Server Link Object detection,Segmentation,Caption(English)
CC595k 595K 595K 595K Visual Instruction Tuning Link Captions(English)
Visual-7W 47.3K 328K 328K Visual7W: Grounded Question Answering in Images - -
Flickr30k 31K 158K 158K From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions Link Annotations(English)
Text Captions 28K 145K 145K TextCaps: a Dataset for Image Captioning with Reading Comprehension - -
RefCOCO 20K 142K 142K ReferItGame: Referring to Objects in Photographs of Natural Scenes - -

多模态指令微调数据集

  • 待补充

上下文学习数据集

  • 待补充

多模态思维链数据集

  • 待补充

多模态RLHF数据集

  • 待补充

评估基准数据集

  • 待补充
AI搜集汇总
数据集介绍
main_image_url
构建方式
WebLI数据集的构建基于大规模的图像和文本对,通过联合扩展的多语言语言-图像模型(PaLI)进行处理。该数据集包含10亿张图像和12亿条文本描述,涵盖109种语言。其构建过程涉及对图像和文本进行配对,确保每张图像都有相应的多语言描述,从而为多模态学习提供了丰富的资源。
特点
WebLI数据集的主要特点在于其规模庞大和多语言支持。拥有10亿张图像和12亿条文本描述,使其成为多模态学习领域的宝贵资源。此外,数据集支持109种语言的描述,极大地增强了其在全球范围内的适用性和多样性。
使用方法
WebLI数据集适用于多模态大模型的预训练和指令微调。研究人员可以通过访问GitHub上的链接获取数据集,并将其用于开发和优化多模态AI系统。数据集的多语言特性使其特别适合于跨语言的多模态学习任务,如图像描述生成和视觉问答系统。
背景与挑战
背景概述
WebLI数据集是多模态大模型训练领域中的一个重要组成部分,由主要研究人员或机构于2022年创建。该数据集的核心研究问题集中在如何高效地进行多语言图像与文本的联合训练,以提升模型的跨语言理解能力。WebLI数据集包含10亿张图像和12亿条文本描述,覆盖了109种语言,极大地丰富了多模态模型的训练资源。其影响力在于为多语言环境下的图像识别和文本理解提供了强有力的数据支持,推动了多模态AI系统的发展。
当前挑战
WebLI数据集在构建过程中面临多项挑战。首先,多语言数据的收集和处理需要克服语言多样性和数据质量不均的问题。其次,数据集的规模庞大,对存储和计算资源提出了高要求。此外,如何确保不同语言之间的数据平衡,以及如何处理多语言环境下的噪声数据,也是该数据集需要解决的重要问题。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练效果产生了深远影响。
常用场景
经典使用场景
WebLI数据集在多模态大模型训练中扮演着至关重要的角色,尤其在图像与文本的联合预训练场景中。其庞大的数据规模(10亿张图像和12亿条文本)为模型提供了丰富的视觉和语言信息,使得模型能够在多语言环境下进行高效的跨模态学习。通过WebLI,研究者可以训练出能够理解和生成多语言图像描述的模型,这在图像检索、视觉问答和图像生成等任务中具有广泛的应用前景。
解决学术问题
WebLI数据集解决了多模态学习中数据稀缺和语言多样性不足的问题。传统的多模态数据集往往集中在单一语言或小规模数据上,限制了模型的泛化能力和跨语言应用。WebLI通过提供大规模、多语言的图像-文本对,使得研究者能够在更广泛的语言和文化背景下验证和优化模型,推动了多模态学习领域的发展,并为未来的跨语言智能系统奠定了基础。
衍生相关工作
基于WebLI数据集,研究者们开发了多种多模态模型和应用。例如,PaLI模型利用WebLI进行预训练,显著提升了多语言图像描述的生成质量。此外,WebLI还激发了多个跨语言视觉问答(VQA)系统的研究,如Flamingo和FILIP,这些系统在处理多语言图像和文本时表现出色。WebLI的成功应用也推动了其他多模态数据集的开发,如LAION-5B和Wukong,进一步丰富了多模态学习的研究资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录