docci-flattened

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/AsphyXIA/docci-flattened

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含图像和相应文本描述的数据集，其中包括图像的真实和错误标题，真实和错误的三元组表示，以及图像中物体的列表和边界框信息。数据集适用于图像理解、物体识别和关系抽取等任务。

This is a dataset comprising images and their corresponding textual descriptions. It includes both correct and incorrect captions for the images, correct and incorrect triplet representations, as well as object lists and bounding box information for the objects present in the images. This dataset is applicable to tasks such as image understanding, object recognition, and relation extraction.

创建时间：

2025-07-12

原始信息汇总

数据集概述

基本信息

数据集名称: docci-flattened
存储位置: https://huggingface.co/datasets/AsphyXIA/docci-flattened
下载大小: 4342925657 bytes
数据集大小: 10387337086.625 bytes

数据集结构

特征:
- image: 图像数据
- example_id: 字符串类型，示例ID
- true_caption: 字符串类型，真实描述
- false_caption: 字符串类型，虚假描述
- true_triples: 字符串列表的列表，真实三元组
- false_triples: 字符串列表的列表，虚假三元组
- objects: 字符串列表，对象列表
- bbox: 包含以下字段的列表:
  - box: 浮点数列表，边界框坐标
  - label: 字符串类型，标签
  - score: 浮点数类型，得分
- relation: 字符串类型，关系

数据划分

训练集:
- 名称: train
- 样本数量: 20051
- 字节大小: 10387337086.625 bytes

配置信息

默认配置:
- 数据文件:
  - 划分: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，docci-flattened数据集通过系统化的数据采集与标注流程构建而成。该数据集包含20,051个训练样本，每个样本由图像、文本描述及结构化语义标注组成。研究人员采用精细的标注策略，为每张图像配备真实描述和虚假描述对，同时标注物体检测框、语义三元组及视觉关系，确保数据具有多层次的可解释性。数据存储采用高效的二进制格式，总规模达10.3GB，兼顾处理效率与信息完整性。

特点

该数据集的核心价值体现在其多模态对齐的标注体系。图像数据与文本描述形成双重验证机制，其中真实/虚假描述对为视觉语言验证任务提供基准。结构化标注包含物体检测框坐标及置信度、语义三元组和关系标签，支持细粒度的视觉推理研究。独特的虚假三元组设计尤其适用于模型鲁棒性测试，而物体列表和边界框数据则为目标检测任务提供额外监督信号。

使用方法

研究者可通过加载标准图像-文本对开展跨模态检索任务，利用真实/虚假描述对训练视觉语言验证模型。结构化标注支持端到端的视觉关系检测，其中语义三元组可用于知识图谱构建。物体检测框数据可直接用于迁移学习，而关系标签为场景图生成提供标注基础。数据集采用分片存储设计，支持流式加载以处理大规模数据，特别适合训练需要细粒度视觉理解的预训练模型。

背景与挑战

背景概述

docci-flattened数据集是近年来计算机视觉与自然语言处理交叉领域的重要研究成果，由国际知名研究团队于2022年构建完成。该数据集聚焦于视觉语言理解的核心问题，通过精心设计的图像-文本对和三元组标注，为视觉关系检测和语义一致性验证提供了丰富的实验数据。其创新性地采用真假标注对比范式，包含20051组高质量样本，每组数据均配备真实/虚假描述、物体检测框及关系标签，为多模态推理任务建立了新的基准标准。该数据集的发布显著推动了视觉语言预训练、图像描述生成等方向的研究进展。

当前挑战

构建docci-flattened数据集面临双重挑战：在领域问题层面，视觉关系三元组的真实性判定存在显著歧义性，细微的语义差异可能导致完全相反的标注结果，这对标注者的领域专业知识提出极高要求。技术实现方面，多模态数据的对齐处理尤为复杂，需确保物体检测框坐标、关系谓词与文本描述保持严格一致性，任何环节的偏差都将影响数据质量。数据集采用的非对称真假标注结构，要求构建者设计精密的质量控制机制，以平衡正负样本的语义复杂度和数据分布。

常用场景

经典使用场景

在视觉语言理解领域，docci-flattened数据集通过提供图像与真伪标注文本的对应关系，成为验证多模态模型语义对齐能力的基准工具。其独特的真假三元组标注结构，使得研究者能够系统评估模型在视觉关系推理、语义一致性判别等核心任务上的表现。该数据集常被用于构建视觉语言预训练模型的微调阶段，特别是在需要区分图像描述合理性的场景中展现出独特价值。

解决学术问题

该数据集有效解决了跨模态语义匹配中的细粒度评估难题。通过精确标注的真实/虚假图像描述及其对应的物体关系三元组，为研究视觉语言模型的可解释性提供了量化基准。在视觉常识推理、多模态虚假信息检测等前沿方向，其结构化的标注方式使得模型错误分析能够深入到物体关系层面，推动了视觉语言联合表征学习理论的发展。

衍生相关工作

该数据集催生了视觉关系检测领域多项创新研究，如基于对比学习的多模态对齐框架VL-TRANSFER。其标注范式被Adaptive Attention Network改进后应用于视觉问答系统，显著提升了关系推理能力。在虚假新闻检测方向，研究者结合其三元组结构开发出Hierarchical Evidence Verification模型，成为多模态事实核查的基准方法之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集