not-lain/docci
收藏Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/not-lain/docci
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: cc-by-4.0
task_categories:
- visual-question-answering
dataset_info:
features:
- name: image
dtype: image
- name: question
dtype: string
- name: answer
dtype: string
splits:
- name: train
num_bytes: 4970603548.0
num_examples: 9647
- name: test
num_bytes: 2574720843.0
num_examples: 5000
download_size: 7538288046
dataset_size: 7545324391.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
taken from https://huggingface.co/datasets/google/docci
and updated to the datasets library and only kept the train and the test splits
we also have the following columns now
* `image` : same as the original dataset
* `question` : same question repeated for all samples which is "Describe this image"
* `answer` : same ass description column in the original dataset
语言:
- 英语(en)
许可证:CC BY 4.0(知识共享署名4.0国际许可协议)
任务类别:
- 视觉问答(visual-question-answering)
dataset_info:
特征:
- 名称:image(图像),数据类型:图像
- 名称:question(问题),数据类型:字符串
- 名称:answer(答案),数据类型:字符串
数据集划分:
- 名称:train(训练集),字节大小:4970603548.0,样本数量:9647
- 名称:test(测试集),字节大小:2574720843.0,样本数量:5000
下载大小:7538288046
数据集总大小:7545324391.0
configs:
- 配置名称:default(默认配置)
数据文件:
- 划分:train(训练集),路径:data/train-*
- 划分:test(测试集),路径:data/test-*
该数据集取自https://huggingface.co/datasets/google/docci,已适配Hugging Face数据集库,仅保留了训练集与测试集划分。当前数据集包含以下列字段:
* `image`:与原始数据集完全一致
* `question`:所有样本使用统一问题,即"描述此图像"
* `answer`:对应原始数据集中的description列
提供机构:
not-lain
原始信息汇总
数据集概述
语言
- 英语
许可证
- CC BY 4.0
任务类别
- 视觉问答
数据集信息
特征
- image: 图像类型
- question: 字符串类型
- answer: 字符串类型
数据分割
- train:
- 字节数: 4970603548.0
- 样本数: 9647
- test:
- 字节数: 2574720843.0
- 样本数: 5000
数据大小
- 下载大小: 7538288046
- 数据集大小: 7545324391.0
配置
- config_name: default
- 数据文件:
- train: data/train-*
- test: data/test-*
- 数据文件:
列信息
- image: 与原始数据集相同
- question: 所有样本重复相同的问题 "Describe this image"
- answer: 与原始数据集中的描述列相同
搜集汇总
数据集介绍

构建方式
在视觉问答领域,数据集的构建往往依赖于多模态信息的精准对齐。DocCI数据集源自谷歌的原始版本,经过精心重构,仅保留了训练集与测试集两个核心分割。其构建过程遵循严格的标准化流程,将原始数据中的图像与描述性文本进行配对,并统一了问题格式。具体而言,每个样本均包含图像、固定问题“描述此图像”以及对应的答案文本,确保了数据的一致性与可复用性。这种构建方式不仅简化了数据结构,也为模型训练提供了清晰的多模态对齐基准。
特点
DocCI数据集展现出鲜明的多模态特性,专注于图像描述生成任务。其核心特征在于所有样本共享同一开放式问题“描述此图像”,这促使模型必须深入理解图像内容并生成连贯的文本描述。数据集包含近1.5万个样本,分为训练集与测试集,规模适中且结构清晰。图像与文本答案的配对设计,直接支持端到端的视觉语言建模。这种统一的问题框架降低了任务复杂度,使研究者能更专注于提升模型的内容理解与生成能力。
使用方法
该数据集适用于训练与评估视觉问答或图像描述生成模型。使用时,研究者可加载图像数据及其对应的固定问题与答案,构建多模态输入输出对。典型的流程包括利用训练集微调预训练的视觉语言模型,如基于Transformer的架构,使模型学会根据图像生成描述性文本。评估阶段则使用测试集,通过计算生成文本与参考答案之间的相似度指标(如BLEU、CIDEr)来衡量模型性能。这种使用方法直接支持图像理解与自然语言生成的交叉研究。
背景与挑战
背景概述
在视觉语言理解领域,多模态学习模型的发展亟需高质量且规模化的数据集支撑。DocCI数据集由Google研究团队于2023年创建,其核心研究问题聚焦于文档图像的内容理解与描述生成。该数据集旨在推动文档智能分析技术,通过结合视觉信息与自然语言处理,使模型能够准确解读复杂文档布局中的图文内容。DocCI的出现显著提升了文档图像描述任务的基准水平,为后续研究提供了关键的数据资源,并在文档数字化、信息检索等应用场景中展现出深远影响力。
当前挑战
DocCI数据集所解决的核心领域挑战在于文档图像描述的复杂性,这涉及对非结构化文档中文本、表格、图表等多元素的理解与连贯描述。构建过程中的主要挑战包括:如何从多样化的文档类型中收集高质量图像,确保标注的准确性与一致性,以及处理文档中可能存在的模糊、低分辨率或遮挡问题。此外,数据集的构建还需平衡不同文档类别与语言风格的覆盖度,以支持模型在真实场景下的泛化能力。
常用场景
经典使用场景
在视觉问答领域,DocCI数据集以其独特的文档图像描述任务,为多模态学习提供了经典的应用场景。该数据集通过将图像与文本描述配对,构建了一个包含近万张文档图像及其对应描述的丰富资源。研究者通常利用这一数据集训练模型,使其能够理解文档图像的内容,并生成准确、连贯的文本描述。这种场景不仅考验模型对视觉信息的解析能力,还要求其具备自然语言生成的流畅性,从而推动文档理解与视觉语言交互的深度融合。
解决学术问题
DocCI数据集有效解决了文档图像自动描述这一核心学术问题,填补了传统视觉问答任务在文档领域应用的空白。它通过提供大规模、高质量的标注数据,支持模型学习从复杂文档布局中提取语义信息,并转化为自然语言描述。这一过程有助于克服文档图像中文字密集、结构多样带来的挑战,促进了多模态表示学习、跨模态对齐及生成模型的发展,为文档智能化处理奠定了坚实的实证基础。
衍生相关工作
围绕DocCI数据集,衍生了一系列经典研究工作,主要集中在文档视觉问答和图像描述生成方向。这些工作探索了基于Transformer的多模态架构,如将视觉编码器与语言模型结合,以提升文档描述的准确性和上下文连贯性。此外,部分研究进一步扩展了数据集的用途,将其应用于文档分类、信息提取等下游任务,丰富了文档智能领域的理论框架与实践方法,持续引领该领域的技术创新。
以上内容由遇见数据集搜集并总结生成



