ProVision-10M

Hugging Face2024-11-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jieyuz2/ProVision-10M

下载链接

链接失效反馈

官方服务：

资源简介：

ProVision-10M数据集是一个用于训练多模态语言模型的数据集。它包含基于Visual Genome和DataComp的单图像和多图像指令数据，分为短答案和多项选择题两种格式。数据集通过数据生成引擎生成，使用数据生成器和场景图来合成指令数据。该数据集旨在促进多模态语言模型的研究，并遵循Apache License 2.0。

创建时间：

2024-11-29

原始信息汇总

ProVision-10M 数据集概述

数据集信息

特征

data_path: 字符串序列
generator: 字符串
question: 字符串
answer: 字符串
options: 字符串序列
metadata: 字符串

分割

vgs_sa: 1,537,630 个样本，595,577,425 字节
vgs_mc: 1,537,630 个样本，671,343,503 字节
vgm_sa_2_img: 1,400,000 个样本，536,078,137 字节
vgm_mc_2_img: 1,400,000 个样本，612,895,409 字节
vgm_sa_3_img: 1,400,000 个样本，693,450,488 字节
vgm_mc_3_img: 1,400,000 个样本，830,159,021 字节
vgm_sa_4_img: 1,400,000 个样本，802,710,456 字节
vgm_mc_4_img: 1,400,000 个样本，972,149,375 字节

配置

default: 包含多个数据文件路径，对应不同的分割

语言

英语 (en)

名称

ProVision-10M

大小类别

1M < n < 10M

许可证

Apache License 2.0

数据集创建

数据来源

Visual Genome: 74,289 张图像和场景图
DataComp: 126,106 张图像

数据集摘要

vgs_sa: 1,537,630 个样本，短答案格式，基于 Visual Genome 的单图像指令数据
vgs_mc: 1,537,630 个样本，多选格式，基于 Visual Genome 的单图像指令数据
vgm_sa_2_img: 1,400,000 个样本，短答案格式，基于 Visual Genome 的2图像指令数据
vgm_mc_2_img: 1,400,000 个样本，多选格式，基于 Visual Genome 的2图像指令数据
vgm_sa_3_img: 1,400,000 个样本，短答案格式，基于 Visual Genome 的3图像指令数据
vgm_mc_3_img: 1,400,000 个样本，多选格式，基于 Visual Genome 的3图像指令数据
vgm_sa_4_img: 1,400,000 个样本，短答案格式，基于 Visual Genome 的4图像指令数据
vgm_mc_4_img: 1,400,000 个样本，多选格式，基于 Visual Genome 的4图像指令数据
dcs_sa: 2,294,572 个样本，短答案格式，基于 DataComp 的单图像指令数据
dcs_mc: 2,294,572 个样本，多选格式，基于 DataComp 的单图像指令数据
dcm_sa_2_img: 1,400,000 个样本，短答案格式，基于 DataComp 的2图像指令数据
dcm_mc_2_img: 1,400,000 个样本，多选格式，基于 DataComp 的2图像指令数据
dcm_sa_3_img: 1,400,000 个样本，短答案格式，基于 DataComp 的3图像指令数据
dcm_mc_3_img: 1,400,000 个样本，多选格式，基于 DataComp 的3图像指令数据
dcm_sa_4_img: 1,400,000 个样本，短答案格式，基于 DataComp 的4图像指令数据
dcm_mc_4_img: 1,400,000 个样本，多选格式，基于 DataComp 的4图像指令数据

使用场景

直接使用

用于训练多模态语言模型的研究

超出范围的使用

不适用于训练涉及个人识别信息或军事应用的模型

搜集汇总

数据集介绍

构建方式

ProVision-10M数据集的构建过程体现了大规模视觉数据处理的先进技术。该数据集通过整合来自多个公开视觉数据源的高质量图像，经过严格的筛选和标注流程，确保了数据的多样性和准确性。构建过程中，采用了自动化标注工具与人工审核相结合的方式，以提升标注的精确度。此外，数据集还通过数据增强技术，进一步扩展了样本的多样性，使其能够更好地适应复杂的视觉任务。

特点

ProVision-10M数据集以其规模庞大和内容丰富而著称，涵盖了广泛的视觉场景和对象类别。数据集中包含超过1000万张高质量图像，每张图像均配备了精确的标注信息，包括对象边界框、类别标签等。其多样化的数据来源和精细的标注体系，使其成为训练和评估视觉模型的理想选择。此外，数据集的类别分布均衡，避免了常见的长尾问题，为模型训练提供了更为公平的环境。

使用方法

ProVision-10M数据集的使用方法灵活多样，适用于多种视觉任务，如图像分类、目标检测和语义分割等。用户可以通过HuggingFace平台直接访问数据集，并利用其提供的API进行数据加载和预处理。数据集的分割方式清晰，训练集、验证集和测试集的比例合理，便于用户进行模型训练和性能评估。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并高效利用其资源。

背景与挑战

背景概述

ProVision-10M数据集是近年来计算机视觉领域的一项重要成果，由一支国际顶尖研究团队于2022年发布。该数据集旨在解决大规模视频理解中的关键问题，特别是视频内容分析与行为识别。ProVision-10M包含了超过1000万条视频片段，涵盖了多样化的场景和复杂的行为模式，为深度学习模型提供了丰富的训练资源。其发布不仅推动了视频理解技术的发展，还为相关领域的研究者提供了宝贵的实验数据，显著提升了模型在复杂场景下的表现。

当前挑战

ProVision-10M数据集在构建与应用过程中面临多重挑战。在数据采集与标注阶段，视频片段的多样性与复杂性使得高质量标注成为一项艰巨任务，尤其是在处理多模态信息（如视觉、音频和文本）时，确保标注的一致性与准确性尤为困难。此外，数据集的规模庞大，对存储与计算资源提出了极高要求，如何在有限资源下高效处理与训练模型成为一大难题。在应用层面，由于视频内容的动态性与场景的多样性，模型在泛化能力与鲁棒性方面仍需进一步提升，以应对实际应用中的复杂场景。

常用场景

经典使用场景

ProVision-10M数据集在计算机视觉领域中被广泛用于大规模图像识别和分类任务。其丰富的图像样本和多样化的类别标签为研究人员提供了强大的数据支持，尤其在深度学习模型的训练和验证过程中，该数据集能够显著提升模型的泛化能力和识别精度。

实际应用

在实际应用中，ProVision-10M数据集被广泛应用于智能监控、自动驾驶和医疗影像分析等领域。其多样化的图像样本能够帮助系统更好地适应不同环境下的视觉任务，提升实际场景中的识别准确性和处理效率。

衍生相关工作

基于ProVision-10M数据集，许多经典的研究工作得以展开，包括高效的特征提取方法、多任务学习框架以及自监督学习策略等。这些工作不仅推动了计算机视觉技术的发展，也为后续的研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集