not-lain/docci

Name: not-lain/docci
Creator: not-lain
Published: 2024-05-27 01:19:49
License: 暂无描述

Hugging Face2024-05-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/not-lain/docci

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: cc-by-4.0 task_categories: - visual-question-answering dataset_info: features: - name: image dtype: image - name: question dtype: string - name: answer dtype: string splits: - name: train num_bytes: 4970603548.0 num_examples: 9647 - name: test num_bytes: 2574720843.0 num_examples: 5000 download_size: 7538288046 dataset_size: 7545324391.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- taken from https://huggingface.co/datasets/google/docci and updated to the datasets library and only kept the train and the test splits we also have the following columns now * `image` : same as the original dataset * `question` : same question repeated for all samples which is "Describe this image" * `answer` : same ass description column in the original dataset

语言： - 英语（en）许可证：CC BY 4.0（知识共享署名4.0国际许可协议）任务类别： - 视觉问答（visual-question-answering） dataset_info：特征： - 名称：image（图像），数据类型：图像 - 名称：question（问题），数据类型：字符串 - 名称：answer（答案），数据类型：字符串数据集划分： - 名称：train（训练集），字节大小：4970603548.0，样本数量：9647 - 名称：test（测试集），字节大小：2574720843.0，样本数量：5000 下载大小：7538288046 数据集总大小：7545324391.0 configs： - 配置名称：default（默认配置）数据文件： - 划分：train（训练集），路径：data/train-* - 划分：test（测试集），路径：data/test-* 该数据集取自https://huggingface.co/datasets/google/docci，已适配Hugging Face数据集库，仅保留了训练集与测试集划分。当前数据集包含以下列字段： * `image`：与原始数据集完全一致 * `question`：所有样本使用统一问题，即"描述此图像" * `answer`：对应原始数据集中的description列

提供机构：

not-lain

原始信息汇总

数据集概述

语言

英语

许可证

CC BY 4.0

任务类别

视觉问答

数据集信息

特征

image: 图像类型
question: 字符串类型
answer: 字符串类型

数据分割

train:
- 字节数: 4970603548.0
- 样本数: 9647
test:
- 字节数: 2574720843.0
- 样本数: 5000

数据大小

下载大小: 7538288046
数据集大小: 7545324391.0

配置

config_name: default
- 数据文件:
  - train: data/train-*
  - test: data/test-*

列信息

image: 与原始数据集相同
question: 所有样本重复相同的问题 "Describe this image"
answer: 与原始数据集中的描述列相同

搜集汇总

数据集介绍

构建方式

在视觉问答领域，数据集的构建往往依赖于多模态信息的精准对齐。DocCI数据集源自谷歌的原始版本，经过精心重构，仅保留了训练集与测试集两个核心分割。其构建过程遵循严格的标准化流程，将原始数据中的图像与描述性文本进行配对，并统一了问题格式。具体而言，每个样本均包含图像、固定问题“描述此图像”以及对应的答案文本，确保了数据的一致性与可复用性。这种构建方式不仅简化了数据结构，也为模型训练提供了清晰的多模态对齐基准。

特点

DocCI数据集展现出鲜明的多模态特性，专注于图像描述生成任务。其核心特征在于所有样本共享同一开放式问题“描述此图像”，这促使模型必须深入理解图像内容并生成连贯的文本描述。数据集包含近1.5万个样本，分为训练集与测试集，规模适中且结构清晰。图像与文本答案的配对设计，直接支持端到端的视觉语言建模。这种统一的问题框架降低了任务复杂度，使研究者能更专注于提升模型的内容理解与生成能力。

使用方法

该数据集适用于训练与评估视觉问答或图像描述生成模型。使用时，研究者可加载图像数据及其对应的固定问题与答案，构建多模态输入输出对。典型的流程包括利用训练集微调预训练的视觉语言模型，如基于Transformer的架构，使模型学会根据图像生成描述性文本。评估阶段则使用测试集，通过计算生成文本与参考答案之间的相似度指标（如BLEU、CIDEr）来衡量模型性能。这种使用方法直接支持图像理解与自然语言生成的交叉研究。

背景与挑战

背景概述

在视觉语言理解领域，多模态学习模型的发展亟需高质量且规模化的数据集支撑。DocCI数据集由Google研究团队于2023年创建，其核心研究问题聚焦于文档图像的内容理解与描述生成。该数据集旨在推动文档智能分析技术，通过结合视觉信息与自然语言处理，使模型能够准确解读复杂文档布局中的图文内容。DocCI的出现显著提升了文档图像描述任务的基准水平，为后续研究提供了关键的数据资源，并在文档数字化、信息检索等应用场景中展现出深远影响力。

当前挑战

DocCI数据集所解决的核心领域挑战在于文档图像描述的复杂性，这涉及对非结构化文档中文本、表格、图表等多元素的理解与连贯描述。构建过程中的主要挑战包括：如何从多样化的文档类型中收集高质量图像，确保标注的准确性与一致性，以及处理文档中可能存在的模糊、低分辨率或遮挡问题。此外，数据集的构建还需平衡不同文档类别与语言风格的覆盖度，以支持模型在真实场景下的泛化能力。

常用场景

经典使用场景

在视觉问答领域，DocCI数据集以其独特的文档图像描述任务，为多模态学习提供了经典的应用场景。该数据集通过将图像与文本描述配对，构建了一个包含近万张文档图像及其对应描述的丰富资源。研究者通常利用这一数据集训练模型，使其能够理解文档图像的内容，并生成准确、连贯的文本描述。这种场景不仅考验模型对视觉信息的解析能力，还要求其具备自然语言生成的流畅性，从而推动文档理解与视觉语言交互的深度融合。

解决学术问题

DocCI数据集有效解决了文档图像自动描述这一核心学术问题，填补了传统视觉问答任务在文档领域应用的空白。它通过提供大规模、高质量的标注数据，支持模型学习从复杂文档布局中提取语义信息，并转化为自然语言描述。这一过程有助于克服文档图像中文字密集、结构多样带来的挑战，促进了多模态表示学习、跨模态对齐及生成模型的发展，为文档智能化处理奠定了坚实的实证基础。

衍生相关工作

围绕DocCI数据集，衍生了一系列经典研究工作，主要集中在文档视觉问答和图像描述生成方向。这些工作探索了基于Transformer的多模态架构，如将视觉编码器与语言模型结合，以提升文档描述的准确性和上下文连贯性。此外，部分研究进一步扩展了数据集的用途，将其应用于文档分类、信息提取等下游任务，丰富了文档智能领域的理论框架与实践方法，持续引领该领域的技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集