ServiceNow/whatsup_all
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ServiceNow/whatsup_all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个分割,每个分割由图像选项和标题选项组成。具体分割包括VG_Relation、VG_Attribution、COCO_Order、Controlled_Images_A、Controlled_Images_B、COCO_QA_one_obj、COCO_QA_two_obj、VG_QA_one_obj和VG_QA_two_obj。每个分割都有特定的字节大小和示例数量。数据集总下载大小为10754826706字节,总数据集大小为27366102429.003字节。
The dataset consists of multiple splits, each composed of image options and caption options. Specific splits include VG_Relation, VG_Attribution, COCO_Order, Controlled_Images_A, Controlled_Images_B, COCO_QA_one_obj, COCO_QA_two_obj, VG_QA_one_obj, and VG_QA_two_obj. Each split has a specific byte size and number of examples. The total download size of the dataset is 10754826706 bytes, and the total dataset size is 27366102429.003 bytes.
提供机构:
ServiceNow
原始信息汇总
数据集概述
特征
- image_options: 图像数据类型
- caption_options: 字符串序列
数据集分割
- VG_Relation:
- 样本数量: 23,937
- 数据大小: 5,504,595,715.875 字节
- VG_Attribution:
- 样本数量: 28,748
- 数据大小: 7,210,071,865.5 字节
- COCO_Order:
- 样本数量: 25,010
- 数据大小: 12,092,377,388.75 字节
- Controlled_Images_A:
- 样本数量: 412
- 数据大小: 456,823,630.0 字节
- Controlled_Images_B:
- 样本数量: 408
- 数据大小: 345,149,219.0 字节
- COCO_QA_one_obj:
- 样本数量: 2,247
- 数据大小: 1,037,548,814.878 字节
- COCO_QA_two_obj:
- 样本数量: 440
- 数据大小: 194,516,374.0 字节
- VG_QA_one_obj:
- 样本数量: 1,160
- 数据大小: 416,478,210.0 字节
- VG_QA_two_obj:
- 样本数量: 291
- 数据大小: 108,541,211.0 字节
数据集大小
- 下载大小: 10,754,826,706 字节
- 总数据大小: 27,366,102,429.003 字节
配置
- default:
- 包含所有分割的数据文件路径
搜集汇总
数据集介绍

构建方式
在视觉语言理解领域,数据集的构建需兼顾多样性与结构性。该数据集整合了多个子集,包括VG_Relation、VG_Attribution、COCO_Order等,每个子集均源于权威视觉数据集如Visual Genome和COCO。构建过程中,通过精心设计的任务划分,如关系识别、属性描述、顺序排列及问答对生成,确保了数据在语义层面的丰富层次。图像与文本选项的配对经过系统化标注,覆盖从单对象到多对象的复杂场景,为模型训练提供了坚实的多模态基础。
特点
该数据集展现出鲜明的多任务与多模态特性,其子集分别针对视觉关系、属性、顺序及问答等核心任务,形成了任务驱动的数据架构。图像选项与文本描述选项的并行呈现,增强了数据的对比学习潜力。数据规模庞大,总大小超过27GB,示例数量逾万,涵盖了广泛的实际视觉场景。各子集在字节与示例数量上分布均衡,体现了数据集的系统化设计思维,为视觉语言模型的综合评估与训练提供了全面支撑。
使用方法
使用该数据集时,研究者可依据具体任务需求选择相应子集进行加载。例如,VG_Relation适用于视觉关系理解,COCO_Order可用于序列生成任务,而COCO_QA与VG_QA子集则专为视觉问答设计。通过标准数据加载工具,如图像与文本选项的并行读取,能够便捷地构建多模态输入管道。数据集的划分清晰,支持直接用于模型训练、验证与测试,助力于视觉语言联合表示、跨模态检索及生成式任务的前沿探索。
背景与挑战
背景概述
在视觉与语言交叉研究领域,多模态理解任务对数据集提出了更高要求。ServiceNow推出的whatsup_all数据集,汇集了视觉问答、关系识别、属性描述及顺序推理等多种任务,旨在推动模型对图像内容进行深层次语义解析。该数据集整合了VG(Visual Genome)和COCO(Common Objects in Context)等经典资源,通过结构化标注构建了丰富的多任务评估基准,为视觉语言预训练模型的发展提供了关键数据支撑,显著促进了跨模态表示学习的研究进展。
当前挑战
该数据集致力于解决视觉语言联合理解中的复杂推理挑战,如物体间关系推断、属性归因及事件顺序解析,这些任务要求模型超越表层识别,实现场景的深层语义关联。在构建过程中,面临标注一致性与语义细粒度的平衡难题,例如关系标注的主观性易引入噪声,而多任务数据整合需确保不同子集间的分布协调与评估公平性,这对数据清洗与标准化流程提出了较高要求。
常用场景
经典使用场景
在视觉语言多模态研究领域,ServiceNow/whatsup_all数据集以其丰富的图像与文本配对结构,为视觉关系理解与属性识别提供了经典的应用场景。该数据集整合了VG_Relation和VG_Attribution等子集,使研究者能够训练模型从复杂视觉场景中解析对象间的空间或逻辑关联,并准确描述其视觉属性。这种能力对于构建能够深入理解图像语义内容的智能系统至关重要,推动了多模态表示学习的前沿发展。
实际应用
在实际应用中,ServiceNow/whatsup_all数据集支撑了智能辅助系统与内容管理工具的研发。例如,在自动图像标注系统中,利用其关系与属性数据可生成更准确、丰富的描述;在视觉搜索引擎里,它能增强对用户查询的语义理解,从而返回更相关的图像结果。这些应用不仅优化了用户体验,也推动了电子商务、数字媒体等领域的技术革新。
衍生相关工作
围绕该数据集,学术界衍生出一系列经典研究工作,特别是在多模态预训练模型与视觉推理架构的设计上。许多研究借鉴其细粒度标注,开发了能够联合处理图像关系、属性及顺序的神经网络模型。这些工作不仅验证了数据集的效用,还进一步拓展了视觉语言模型的泛化能力,为后续更复杂的跨模态任务提供了重要的方法论参考。
以上内容由遇见数据集搜集并总结生成



