ProVision-10M

Name: ProVision-10M
Creator: Salesforce
Published: 2024-12-10 05:16:59
License: 暂无描述

Hugging Face2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Salesforce/ProVision-10M

下载链接

链接失效反馈

官方服务：

资源简介：

ProVision-10M数据集是为训练多模态语言模型而设计的，通过数据生成器和场景图程序化生成。该数据集包含单图像和多图像指令数据，基于Visual Genome和DataComp两个主要数据源。数据集包括多种分割，如简答和多项选择格式，适用于不同数量的图像。该数据集以CC-BY-NC-4.0许可证发布，仅用于研究目的。

The ProVision-10M dataset is designed for training multimodal language models, and is programmatically generated using data generators and scene graphs. This dataset encompasses single-image and multi-image instruction data, which is derived from two primary data sources: Visual Genome and DataComp. The dataset offers multiple data formats including short-answer and multiple-choice options, and is applicable to scenarios with varying numbers of images. This dataset is released under the CC-BY-NC-4.0 license and is intended solely for research purposes.

提供机构：

Salesforce

创建时间：

2024-12-05

搜集汇总

数据集介绍

构建方式

ProVision-10M数据集通过程序化生成引擎构建，该引擎利用Python程序和场景图生成指令数据，而非依赖专有模型。数据集的构建基于两个主要数据源：Visual Genome（GQA版本）和DataComp，分别提供了74,289张图像和场景图以及126,106张图像。通过生成场景图并应用数据生成器，ProVision-10M能够生成单图像和多图像的指令数据，支持多种图像组合的指令生成。

特点

ProVision-10M数据集的主要特点在于其程序化生成方式，能够灵活扩展并生成多样化的指令数据。数据集包含多种类型的指令数据，包括单图像和多图像的简答和多选题，涵盖了从2到4张图像的组合。此外，数据集的构建基于高质量的视觉数据源，确保了数据的多样性和丰富性，适用于多模态语言模型的训练和研究。

使用方法

ProVision-10M数据集主要用于训练和评估多模态语言模型。用户可以通过下载原始图像数据并结合数据集中的指令数据进行模型训练。数据集提供了多种格式的指令数据，包括简答和多选题，适用于不同的研究需求。需要注意的是，数据集的使用应遵循CC-BY-NC-4.0许可协议，且不适用于生成或处理个人身份信息及军事应用等不当用途。

背景与挑战

背景概述

ProVision-10M数据集由JieyuZ2等人创建，旨在通过程序化生成指令数据，推动多模态语言模型（MLMs）的研究。该数据集的核心研究问题是如何高效生成适用于训练多模态模型的指令数据，并展示了通过场景图和数据生成器合成指令数据的潜力。ProVision-10M的构建基于Visual Genome和DataComp两个数据源，包含74,289张图像和场景图，以及126,106张图像。该数据集的发布为多模态语言模型的训练提供了丰富的资源，并对相关领域的研究产生了深远影响。

当前挑战

ProVision-10M数据集在构建过程中面临多项挑战。首先，如何通过程序化生成高质量的指令数据，确保其适用于多模态模型的训练，是一个技术难题。其次，数据集的多样性和覆盖范围需要平衡，以避免模型训练中的偏差。此外，数据集的规模和复杂性也带来了存储和计算资源的挑战。最后，确保数据集的合法性和道德使用，避免敏感信息的泄露和不当应用，也是一项重要的挑战。

常用场景

经典使用场景

ProVision-10M数据集的核心应用场景在于为多模态语言模型的训练提供大规模的指令数据。通过结合图像和文本的场景图生成技术，该数据集能够生成单图像和多图像的指令数据，适用于多种问答任务，如简答题和多项选择题。这种数据生成方式不仅提升了模型的训练效率，还为多模态模型的研究提供了丰富的数据资源。

实际应用

在实际应用中，ProVision-10M数据集可广泛应用于教育、医疗、自动驾驶等领域。例如，在教育领域，该数据集可用于开发智能问答系统，帮助学生更好地理解复杂的多模态内容；在医疗领域，可用于图像诊断辅助系统，提升诊断的准确性和效率；在自动驾驶领域，可用于训练视觉感知系统，增强车辆的环境理解能力。

衍生相关工作

ProVision-10M数据集的发布催生了一系列相关研究工作，特别是在多模态语言模型的训练和评估方面。许多研究者基于该数据集开发了新的模型架构和训练方法，进一步提升了模型的性能和泛化能力。此外，该数据集还激发了对多模态数据生成技术的深入研究，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集