LLaVA image-text pretraining dataset

Name: LLaVA image-text pretraining dataset
Creator: Cohere for AI Community, Cisco Meraki, Indiana University Bloomington, Bangladesh University of Engineering and Technology
Published: 2025-05-10 02:01:50
License: 暂无描述

arXiv2025-05-10 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.06356v1

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA图像-文本预训练数据集是一个包含558,000个图像-标题对的数据集，主要用于视觉语言模型（VLM）的训练。为了提高数据集的质量和安全性，研究团队通过结合多个模型（如LlavaGuard和Toxic-BERT）对数据集中的有害内容进行了识别和过滤，最终去除了7,531个有害的图像-文本对。该数据集旨在为研究界提供一个更安全、更负责任的视觉语言模型训练资源，以促进更安全、更公平的多模态系统的发展。

The LLaVA image-text pre-training dataset is a collection of 558,000 image-caption pairs, primarily intended for training vision-language models (VLMs). To improve the quality and safety of the dataset, the research team identified and filtered harmful content within the dataset by integrating multiple models such as LlavaGuard and Toxic-BERT, ultimately removing 7,531 harmful image-caption pairs. This dataset aims to provide the research community with a safer and more responsible training resource for vision-language models, thereby promoting the development of safer and fairer multimodal systems.

提供机构：

Cohere for AI Community, Cisco Meraki, Indiana University Bloomington, Bangladesh University of Engineering and Technology

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

在构建LLaVA图像-文本预训练数据集的过程中，研究者采用了多模态数据采集策略，从网络规模语料库中筛选了558,000个英文图像-文本对作为基础素材。为确保数据质量，研究团队创新性地设计了一套系统性的毒性检测流程：首先运用LlavaGuard 7B模型对图像内容进行九大安全政策分类评估，同时采用Toxic-BERT模型对文本描述进行上下文毒性分析，最终通过Command R+模型进行交叉验证。这种多层级过滤机制有效识别出7,531个包含仇恨言论、暴力内容或不当图像的有害样本，并予以剔除，从而构建出经过毒性净化的高质量数据集版本。

使用方法

该数据集适用于视觉语言模型的预训练与安全对齐研究。使用者可通过标准化的数据加载接口获取净化后的图像-文本对，每项数据均附带原始采集来源与安全评级标签。建议研究者在模型训练前，结合SPA-VL安全偏好对齐框架进行二次验证，或参考MM-SafetyBench评估标准建立补充安全层。对于需要扩展研究的场景，开放源代码中提供的毒性检测管道可复用于其他多模态数据集清理工作，其模块化设计支持用户根据特定需求调整LlavaGuard的分类阈值或替换Toxic-BERT的检测模型。

背景与挑战

背景概述

LLaVA image-text pretraining dataset是视觉语言模型（VLMs）领域的重要数据集，由Cohere for AI Community等机构的研究团队于2023年创建。该数据集包含558,000个英文图像-文本对，旨在支持多模态模型的预训练，广泛应用于图像描述生成、视觉问答（VQA）等任务。LLaVA数据集通过结合大规模语言模型（如CLIP和SigLIP）与视觉编码技术，显著提升了多模态模型的性能。然而，其数据主要来源于网络爬取，不可避免地包含有害内容，如仇恨言论、暴力图像等，这对模型的伦理安全提出了严峻挑战。该数据集的推出推动了多模态模型的发展，同时也引发了对数据质量和安全性的广泛关注。

当前挑战

LLaVA数据集面临的核心挑战包括两方面：领域问题的挑战与构建过程的挑战。在领域问题方面，数据集需解决图像-文本对中的毒性内容识别与过滤问题，例如仇恨言论、暴力图像和歧视性内容的检测，这些内容可能被模型学习并放大，导致伦理风险。构建过程中，研究人员需应对大规模数据清洗的复杂性，包括跨模态毒性检测（如视觉与文本的双重过滤）、减少误删有效数据的风险，以及保持数据多样性与质量之间的平衡。此外，现有毒性检测工具（如Toxic-BERT和LlavaGuard）的覆盖范围与精度仍需优化，以确保数据安全性的同时不影响模型的性能。

常用场景

经典使用场景

在视觉语言模型（VLM）的研究领域，LLaVA image-text pretraining dataset 被广泛用于训练和评估多模态模型的性能。该数据集通过结合图像和文本对，为模型提供了丰富的多模态学习素材，使其在图像描述生成、视觉问答（VQA）和复杂推理任务中表现出色。经典使用场景包括模型预训练和微调，特别是在需要对齐视觉和语言信息的任务中，LLaVA数据集因其规模和质量成为研究者的首选。

解决学术问题

LLaVA数据集解决了多模态模型训练中数据质量与安全性的关键问题。通过系统性地识别和过滤有毒内容（如仇恨言论、暴力图像和歧视性文本），该数据集显著降低了模型在训练过程中吸收有害信息的风险。这不仅提升了模型的伦理安全性，还为研究社区提供了更纯净的数据资源，推动了负责任AI的发展。其意义在于为多模态学习设立了数据清洗的新标准，影响了后续数据集构建的规范。

实际应用

在实际应用中，经过毒性过滤的LLaVA数据集被用于开发更安全的视觉语言模型，例如智能客服、内容审核系统和教育工具。这些应用场景要求模型能够准确理解图像和文本内容，同时避免生成或传播有害信息。例如，在社交媒体平台中，基于该数据集训练的模型可以自动识别并过滤违规内容，显著提升了平台的安全性和用户体验。

数据集最近研究