VLP datasets

github2023-12-10 更新2024-05-31 收录

下载链接：

https://github.com/yiren-jian/VLP-DataDownload

下载链接

链接失效反馈

官方服务：

资源简介：

用于视觉语言预训练的数据集，包括CC3M, CC12M, SBU, VG, WebVid等，这些数据集用于图像下载和处理，支持ALBEF等模型的训练。

A dataset for vision-language pre-training, including CC3M, CC12M, SBU, VG, WebVid, etc. These datasets are utilized for image downloading and processing, supporting the training of models such as ALBEF.

创建时间：

2023-04-21

原始信息汇总

数据集概述

Conceptual Caption

数据下载：使用download_data.py脚本将图像下载到validation和training文件夹中，图像文件名通过特定格式生成。
文件命名规则：文件名格式为%s/%s_%s，其中第一个%s是文件夹名，第二个%s是数据行名，第三个%s是通过CRC32算法计算的URL哈希值。
图像验证：prepare_annotations.py脚本通过Image.open().convert(RGB)验证图像，并保存为用于ALBEF的JSON格式注释文件。

SBU Caption

数据下载：使用Download_new.py脚本下载图像，并保存包含image_path和caption的meta.csv文件。
示例：图像文件与对应的描述信息一同存储。
图像验证：所有图像经过验证，并使用prepare_annotations.py保存为用于ALBEF的JSON格式注释文件。

LAVIS

数据验证：使用LAVIS辅助工具下载的数据集（如SBU、CC3m和CC12m）可能需要进行数据验证。
验证过程：通过检查图像文件是否存在来区分有效和无效记录，并分别保存为sbu_valid.json和sbu_nonvalid.json。

其他注意事项

路径处理：某些注释文件（如VG、CC3m、CC12m）使用绝对路径，在其他机器上训练时需要特别注意路径的转换。

Flickr30k Caption

数据转换：将通过LAVIS下载的Flickr30k数据转换为Flickr30k Captioning数据集格式。
转换过程：从原始注释文件中提取图像ID和描述信息，重新组织并保存为新的JSON格式文件。

致谢

感谢：感谢DownloadConceptualCaptions项目的原始实现。

搜集汇总

数据集介绍

构建方式

VLP数据集的构建过程主要依赖于自动化脚本和人工验证的结合。首先，通过`download_data.py`脚本从网络下载图像数据，并将其存储到指定的文件夹中，文件名通过特定的哈希函数生成以确保唯一性。随后，使用`prepare_annotations.py`脚本对图像进行验证，确保其格式为RGB，并生成用于ALBEF模型的注释文件。对于SBU Caption数据集，`Download_new.py`脚本不仅下载图像，还生成包含图像路径和对应描述的`meta.csv`文件，进一步通过验证脚本生成注释文件。

使用方法

使用VLP数据集时，首先需要通过提供的脚本下载图像和注释文件。对于Conceptual Caption和SBU Caption数据集，可以使用`download_data.py`和`Download_new.py`脚本进行下载，并通过`prepare_annotations.py`脚本生成注释文件。对于LAVIS工具支持的数据集，可以通过其提供的接口进行下载和验证。在使用过程中，需注意注释文件中的路径问题，特别是在不同机器上训练时，可能需要调整路径以确保数据加载的正确性。此外，数据集还支持转换为其他格式，如Flickr30k Captioning数据集，便于不同任务的使用。

背景与挑战

背景概述

VLP数据集是一系列用于视觉语言预训练（Vision-Language Pretraining, VLP）任务的数据集集合，涵盖了多个子数据集，如Conceptual Caption、SBU Caption、Flickr30k Caption等。这些数据集由多个研究机构和团队共同构建，旨在为视觉与语言的多模态学习提供丰富的训练资源。VLP数据集的创建时间可追溯至2018年左右，随着深度学习在视觉与语言交叉领域的快速发展，这些数据集逐渐成为该领域的重要基准。通过提供大规模的图像-文本对，VLP数据集推动了视觉语言模型（如ALBEF、LAVIS等）的发展，并在图像描述生成、视觉问答等任务中展现了显著的影响力。

当前挑战

VLP数据集在构建和应用过程中面临多重挑战。首先，数据集的规模庞大，涉及数百万张图像及其对应的文本描述，数据收集、清洗和标注过程复杂且耗时。其次，图像与文本的对齐质量直接影响模型的性能，而确保高质量的标注需要大量人工干预和自动化工具的结合。此外，数据集的跨平台兼容性问题也较为突出，例如某些标注文件使用绝对路径，导致在不同机器上训练时需进行路径调整。最后，数据集中可能存在无效或损坏的图像文件，需通过额外的验证步骤进行筛选，以确保训练数据的完整性和有效性。这些挑战不仅增加了数据集的构建难度，也对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

VLP数据集在视觉语言预训练领域具有广泛的应用，特别是在图像与文本的联合建模任务中。通过提供大规模的图像-文本对数据，该数据集常用于训练多模态模型，如ALBEF和LAVIS，这些模型能够理解图像内容并生成相应的文本描述。数据集中的Conceptual Caption和SBU Caption部分尤其适合用于图像描述生成、视觉问答等任务。

解决学术问题

VLP数据集解决了多模态学习中的关键问题，即如何有效地将视觉信息与语言信息进行对齐和融合。通过提供高质量的图像-文本对，该数据集为研究者提供了丰富的训练资源，使得模型能够在复杂的视觉语言任务中表现出色。此外，数据集的验证机制确保了数据的可靠性，减少了噪声对模型训练的干扰。

实际应用

在实际应用中，VLP数据集被广泛用于开发智能图像检索系统、自动图像标注工具以及多模态对话系统。例如，基于该数据集训练的模型可以用于社交媒体平台中的图像内容理解与推荐，或用于医疗领域中的医学图像分析与报告生成。这些应用极大地提升了自动化系统的智能化水平。

数据集最近研究