LAION

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/sanbuphy/llm-vision-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

发布的LAION-400M、LAION-5B等超大型图像-文本数据集，以及其他各种类型的CLIP数据。

The release of ultra-large-scale image-text datasets such as LAION-400M, LAION-5B, and various other types of CLIP data.

创建时间：

2024-03-09

原始信息汇总

数据集概述

生成式AI（图像数据集）

通用图像数据集

名称	描述	URL
LAION	发布LAION-400M, LAION-5B等超大型图文数据集，以及其他各种类型的CLIP数据。	https://laion.ai/projects/ <br> https://huggingface.co/laion
Conceptual Captions Dataset	包含(图像URL, 标题)对的数据集，设计用于训练和评估机器学习图像标题系统。	https://github.com/google-research-datasets/conceptual-captions <br> http://ai.google.com/research/ConceptualCaptions
laion-high-resolution-chinese	Laion5B-high-resolution（多模态数据集）的子集，约2.66M图文对（仅中文）。	https://huggingface.co/datasets/wanng/laion-high-resolution-chinese

虚拟试穿数据集

名称	描述	URL
StreetTryOn	包含12,364张训练图像和2,089张验证图像的新野外虚拟试穿数据集。	https://github.com/cuiaiyu/street-tryon-benchmark
CLOTH4D	大规模4D数据集，包含3D人体、服装和纹理模型，SMPL姿态参数和高清图像。	https://github.com/AemikaChow/CLOTH4D
DressCode	专注于建模人物及其服装的底层3D几何和外观的数据集。	https://docs.google.com/forms/d/e/1FAIpQLSeWVzxWcj3JSALtthuw-2QDAbf2ymiK37sA4pRQD4tZz2vqsw/viewform <br> https://arxiv.org/pdf/2204.08532.pdf
VITON-HD	高分辨率虚拟试穿数据集，包含13,679对1024 x 768分辨率的图像。	https://www.dropbox.com/s/10bfat0kg4si1bu/zalando-hd-resized.zip?dl=0 <br> https://psh01087.github.io/VITON-HD/
VITON	首个基于图像的虚拟试穿数据集，包含16,253对图像。	https://drive.google.com/file/d/1MxCUvKxejnwWnoZ-KoCyMCXo3TLhRuTo/view <br> http://openaccess.thecvf.com/content_cvpr_2018/papers/Han_VITON_An_Image-Based_CVPR_2018_paper.pdf
MPV	多姿态虚拟试穿数据集，包含35,687/13,524个人/服装图像。	https://drive.google.com/drive/folders/1e3ThRpSj8j9PaCUw8IrqzKPDVJK_grcA <br> https://arxiv.org/abs/1902.11026
Deep Fashion3D	大规模3D服装数据集，包含多种服装风格和丰富标注。	https://arxiv.org/abs/2003.12753
DeepFashion MultiModal	多模态虚拟试穿数据集，包含未配对的人物和服装图像。	https://github.com/yumingj/DeepFashion-MultiModal
Digital Wardrobe	高质量3D服装数据集，来自真实消费者照片，具有2D-3D对齐标注。	http://virtualhumans.mpi-inf.mpg.de/mgn/
TailorNet Dataset	配对图像，包含穿着3D人体的一致几何和姿态，用于服装转移。	https://github.com/zycliao/TailorNet_dataset <br> http://virtualhumans.mpi-inf.mpg.de/tailornet/
CLOTH3D	首个包含数字服装和3D人体模型的3D服装数据集。	https://arxiv.org/abs/1912.02792
3DPeople	包含80个穿着不同服装和姿态的3D人体数据集。	https://www.albertpumarola.com/research/3DPeople/index.html
THUman Dataset	高分辨率3D纹理人体数据集，包含7000+模型，200+主题。	http://www.liuyebin.com/deephuman/deephuman.html
Garment Dataset	3D服装数据集，包含适合真实人物的数字服装和服装图像。	http://geometry.cs.ucl.ac.uk/projects/2018/garment_design/

生成式AI（视频数据集）

通用视频数据集

名称	描述	URL

多模态模型数据集

预训练对齐数据集

名称	描述	URL
LAION	发布LAION-400M, LAION-5B等超大型图文数据集，以及其他各种类型的CLIP数据。	https://laion.ai/projects/ <br> https://huggingface.co/laion
Conceptual Captions Dataset	包含(图像URL, 标题)对的数据集，设计用于训练和评估机器学习图像标题系统。	https://github.com/google-research-datasets/conceptual-captions <br> http://ai.google.com/research/ConceptualCaptions
COYO-700M	大规模图文对数据集，用于训练和评估机器学习图像文本匹配模型。	https://github.com/kakaobrain/coyo-dataset/
ShareGPT4V	大型图文数据集，包含由GPT-4生成的标题，以改进多模态模型。	https://arxiv.org/pdf/2311.12793.pdf
AS-1B	全视项目数据集，包含超过10亿个区域，标注有语义标签、QA对和标题，用于全景视觉识别。	https://arxiv.org/pdf/2308.01907.pdf
InternVid	大规模视频文本数据集，用于多模态理解和生成。	https://arxiv.org/pdf/2307.06942.pdf
MS-COCO	微软COCO数据集，用于大规模目标检测、分割和标题。	https://arxiv.org/pdf/1405.0312.pdf
SBU Captions	SBU带标题照片数据集，包含100万张带有用户关联标题的图像，从Flickr采集。	https://proceedings.neurips.cc/paper/2011/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf
Conceptual Captions	用于训练图像标题模型的清理过的网络抓取图像alt-text数据集。	https://aclanthology.org/P18-1238.pdf
LAION-400M	开放、大规模数据集，包含4亿个CLIP过滤的图文对。	https://arxiv.org/pdf/2111.02114.pdf <br> https://laion.ai/projects/ <br> https://huggingface.co/laion
VG Captions	视觉基因组数据集，通过众包注释将结构化图像概念与语言连接。	https://link.springer.com/content/pdf/10.1007/s11263-016-0981-7.pdf
Flickr30k	Flickr30k实体数据集，包含30k张图像，每张图像有5个标题，注释有边界框和实体提及。	https://openaccess.thecvf.com/content_iccv_2015/papers/Plummer_Flickr30k_Entities_Collecting_ICCV_2015_paper.pdf
AI-Caps	AI Challenger：包含数百万张图像和自然语言描述的大型中文数据集。	https://arxiv.org/pdf/1711.06475.pdf
Wukong Captions	1亿规模的中文跨模态预训练基准数据集。	https://proceedings.neurips.cc/paper_files/paper/2022/file/a90b9a09a6ee43d6631cf42e225d73b4-Paper-Datasets_and_Benchmarks.pdf
GRIT	包含图像与文本段落对齐的接地多模态语言模型数据集。	https://arxiv.org/pdf/2306.14824.pdf
Youku-mPLUG	1000万规模的中文视频语言预训练数据集。	https://arxiv.org/pdf/2306.04362.pdf
MSR-VTT	大规模视频描述数据集，用于桥接视频和语言。	https://openaccess.thecvf.com/content_cvpr_2016/papers/Xu_MSR-VTT_A_Large_CVPR_2016_paper.pdf
Webvid10M	大规模视频文本数据集，用于联合视频语言表示学习。	https://arxiv.org/pdf/2104.00650.pdf
WavCaps	WavCaps：由ChatGPT辅助的弱标签音频标题数据集。	https://arxiv.org/pdf/2303.17395.pdf
AISHELL-1	AISHELL-1：开源普通话语音语料库和语音识别基准。	https://arxiv.org/pdf/1709.05522.pdf
AISHELL-2	AISHELL-2：工业规模的普通话语音识别数据集。	https://arxiv.org/pdf/1808.10583.pdf
VSDial-CN	中文视觉语义对话数据集，用于研究多模态语言模型。	https://arxiv.org/pdf/2305.04160.pdf

多模态指令调优数据集

名称	描述	URL
CogVLM-SFT-311K	CogVLM-SFT-311K，用于初始化CogVLM v1.0的关键对齐语料库，由从开源MiniGPT-4 (minigpt4-3500)中选择的大约3,500个高质量数据样本构建而成。此子集随后与Llava-Instruct-150K结合，并机器翻译成中文。	https://github.com/THUDM/CogVLM/blob/main/dataset.md
ALLaVA-4V	由GPT4V生成的多模态指令数据集。	https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V
IDK	用于“I Know”幻觉的解幻觉视觉指令。	https://github.com/ncsoft/idk
CAP2QA	图像对齐的视觉指令数据集。	https://github.com/ncsoft/cap2qa
M3DBench	大规模3D指令调优数据集。	https://github.com/OpenM3D/M3DBench
ViP-LLaVA-Instruct	LLaVA-1.5指令数据与区域级视觉提示数据混合。	https://huggingface.co/datasets/mucai/ViP-LLaVA-Instruct
LVIS-Instruct4V	通过GPT-4V自我指令生成的视觉指令数据集。	https://huggingface.co/datasets/X2FD/LVIS-Instruct4V
ComVint	用于复杂视觉推理的合成指令数据集。	https://github.com/RUCAIBox/ComVint#comvint-data
SparklesDialogue	为字级交错多图像和文本交互定制的机器生成对话数据集，以增强指令跟随LLMs在多个图像和对话回合中的会话能力。	https://github.com/HYPJUDY/Sparkles#sparklesdialogue
StableLLaVA	收集视觉指令调优数据的廉价有效方法。	https://github.com/icoz69/StableLLAVA
M-HalDetect	用于训练和基准测试幻觉检测和预防模型的数据集。	Coming soon
MGVLID	高质量指令调优数据集，包括图像-文本和区域-文本对。	-
BuboGPT	BuboGPT：在多模态LLMs中实现视觉接地。	https://huggingface.co/datasets/magicr/BuboGPT
SVIT	SVIT：扩展视觉指令调优。	https://huggingface.co/datasets/BAAI/SVIT
mPLUG-DocOwl	mPLUG-DocOwl：用于文档理解的模块化多模态大型语言模型。	https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocLLM
PF-1M	使用Polite Flamingo进行视觉指令调优。	https://huggingface.co/datasets/chendelong/PF-1M/tree/main
ChartLlama	ChartLlama：用于图表理解和生成的多模态LLM。	https://huggingface.co/datasets/listen2you002/ChartLlama-Dataset
LLaVAR	LLaVAR：用于文本丰富图像理解的增强视觉指令调优。	https://llavar.github.io/#data
MotionGPT	MotionGPT：将人体运动作为外语。	https://github.com/OpenMotionLab/MotionGPT
LRV-Instruction	通过鲁棒指令调优缓解大型多模态模型中的幻觉。	https://github.com/FuxiaoLiu/LRV-Instruction#visual-instruction-data-lrv-instruction
Macaw-LLM	Macaw-LLM：集成图像、音频、视频和文本的多模态语言建模。	https://github.com/lyuchenyang/Macaw-LLM/tree/main/data
LAMM-Dataset	LAMM：语言辅助多模态指令调优数据集、框架和基准。	https://github.com/OpenLAMM/LAMM#lamm-dataset
Video-ChatGPT	Video-ChatGPT：通过大型视觉和语言模型实现详细视频理解。	https://github.com/mbzuai-oryx/Video-ChatGPT#video-instruction-dataset-open_file_folder
MIMIC-IT	MIMIC-IT：多模态上下文指令调优。	https://github.com/Luodian/Otter/blob/main/mimic-it/README.md
M³IT	M³IT：面向多模态多语言指令调优的大型数据集。	https://huggingface.co/datasets/MMInstruction/M3IT
LLaVA-Med	LLaVA-Med：在一天内训练生物医学的大型语言和视觉助手。	Coming soon
GPT4Tools	GPT4Tools：通过自我指令教授大型语言模型使用工具。	Link
MULTIS	ChatBridge：以大型语言模型为语言催化剂，桥接模态。	Coming soon
DetGPT	DetGPT：通过推理检测所需内容。	Link
PMC-VQA	PMC-VQA：用于医学视觉问答的视觉指令调优。	Coming soon
VideoChat	VideoChat：以聊天为中心的视频理解。	Link
X-LLM	X-LLM：通过将多模态视为外语来引导高级大型语言模型。	Link
LMEye	LMEye：用于大型语言模型的交互感知网络。	Link
cc-sbu-align	MiniGPT-4：通过高级大型语言模型增强视觉语言理解。	Link

搜集汇总

数据集介绍

构建方式

LAION数据集的构建基于大规模图像与文本配对数据的收集与整理，旨在为生成式AI和多模态模型提供丰富的训练资源。该数据集通过筛选和过滤，确保了数据的高质量和多样性，涵盖了从LAION-400M到LAION-5B等多个版本，支持不同规模的模型训练需求。

特点

LAION数据集的显著特点在于其超大规模的图像与文本配对数据，适用于生成式AI和多模态模型的训练。数据集不仅包含高分辨率的图像，还提供了丰富的文本描述，能够有效支持图像生成、图像理解等多任务学习。此外，数据集的多样性和广泛性为模型的泛化能力提供了坚实的基础。

使用方法

LAION数据集可用于多种生成式AI和多模态模型的训练与评估。用户可以通过提供的URL访问数据集，并根据需求进行下载和预处理。数据集支持多种深度学习框架，如PyTorch和TensorFlow，用户可以根据具体任务选择合适的模型架构进行训练。此外，数据集还提供了详细的文档和工具，帮助用户快速上手并进行高效的模型开发。

背景与挑战

背景概述

在大型语言模型（LLMs）的时代，LAION数据集应运而生，旨在为生成式AI（如扩散模型）和多模态模型提供大规模的图像与文本配对数据。该数据集由LAION-400M和LAION-5B等超大规模数据集组成，主要研究人员和机构通过这些数据集推动了图像与文本多模态学习的研究。LAION数据集的核心研究问题集中在如何有效利用大规模图像-文本对进行模型训练，以提升生成式AI和多模态模型的性能。这些数据集的发布不仅为研究人员提供了丰富的资源，还为实现通用人工智能（AGI）铺平了道路，极大地推动了相关领域的技术进步。

当前挑战

LAION数据集在构建过程中面临诸多挑战。首先，数据集的规模庞大，如何高效地收集、清洗和存储这些数据是一个巨大的技术难题。其次，图像与文本的配对质量直接影响模型的训练效果，因此确保数据对的一致性和准确性是另一个关键挑战。此外，随着生成式AI和多模态模型的快速发展，如何持续更新和扩展数据集以适应新的研究需求也是一个重要的挑战。最后，数据集的版权和隐私问题也需要严格处理，以避免侵权和不当内容的出现。

常用场景

经典使用场景

LAION数据集在生成式AI领域中具有经典的使用场景，尤其是在图像与文本配对的多模态模型训练中。该数据集提供了大规模的图像-文本对，适用于训练如扩散模型和CLIP模型等生成式AI模型。通过这些数据，研究人员能够构建和优化多模态模型，使其在图像生成、图像描述和视觉问答等任务中表现出色。

实际应用

LAION数据集在实际应用中展现了广泛的应用潜力，特别是在图像生成、虚拟试衣和视频内容生成等领域。例如，在虚拟试衣系统中，LAION的高分辨率图像数据可以用于训练模型，以实现更逼真的虚拟试穿效果。此外，该数据集还可用于视频内容的自动生成和编辑，为影视制作、广告设计等行业提供技术支持。

衍生相关工作

LAION数据集的发布催生了许多相关经典工作，尤其是在多模态学习和生成式AI领域。例如，基于LAION数据集的CLIP模型在图像与文本匹配任务中取得了显著成果，推动了多模态模型的进一步发展。此外，LAION-400M和LAION-5B等子集也被广泛用于训练各种生成式模型，如扩散模型和图像生成模型，进一步拓展了其在学术研究和工业应用中的影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集