five

not-lain/docci

收藏
Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/not-lain/docci
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en license: cc-by-4.0 task_categories: - visual-question-answering dataset_info: features: - name: image dtype: image - name: question dtype: string - name: answer dtype: string splits: - name: train num_bytes: 4970603548.0 num_examples: 9647 - name: test num_bytes: 2574720843.0 num_examples: 5000 download_size: 7538288046 dataset_size: 7545324391.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- taken from https://huggingface.co/datasets/google/docci and updated to the datasets library and only kept the train and the test splits we also have the following columns now * `image` : same as the original dataset * `question` : same question repeated for all samples which is "Describe this image" * `answer` : same ass description column in the original dataset

语言: - 英语(en) 许可证:CC BY 4.0(知识共享署名4.0国际许可协议) 任务类别: - 视觉问答(visual-question-answering) dataset_info: 特征: - 名称:image(图像),数据类型:图像 - 名称:question(问题),数据类型:字符串 - 名称:answer(答案),数据类型:字符串 数据集划分: - 名称:train(训练集),字节大小:4970603548.0,样本数量:9647 - 名称:test(测试集),字节大小:2574720843.0,样本数量:5000 下载大小:7538288046 数据集总大小:7545324391.0 configs: - 配置名称:default(默认配置) 数据文件: - 划分:train(训练集),路径:data/train-* - 划分:test(测试集),路径:data/test-* 该数据集取自https://huggingface.co/datasets/google/docci,已适配Hugging Face数据集库,仅保留了训练集与测试集划分。当前数据集包含以下列字段: * `image`:与原始数据集完全一致 * `question`:所有样本使用统一问题,即"描述此图像" * `answer`:对应原始数据集中的description列
提供机构:
not-lain
原始信息汇总

数据集概述

语言

  • 英语

许可证

  • CC BY 4.0

任务类别

  • 视觉问答

数据集信息

特征

  • image: 图像类型
  • question: 字符串类型
  • answer: 字符串类型

数据分割

  • train:
    • 字节数: 4970603548.0
    • 样本数: 9647
  • test:
    • 字节数: 2574720843.0
    • 样本数: 5000

数据大小

  • 下载大小: 7538288046
  • 数据集大小: 7545324391.0

配置

  • config_name: default
    • 数据文件:
      • train: data/train-*
      • test: data/test-*

列信息

  • image: 与原始数据集相同
  • question: 所有样本重复相同的问题 "Describe this image"
  • answer: 与原始数据集中的描述列相同
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉问答领域,数据集的构建往往依赖于多模态信息的精准对齐。DocCI数据集源自谷歌的原始版本,经过精心重构,仅保留了训练集与测试集两个核心分割。其构建过程遵循严格的标准化流程,将原始数据中的图像与描述性文本进行配对,并统一了问题格式。具体而言,每个样本均包含图像、固定问题“描述此图像”以及对应的答案文本,确保了数据的一致性与可复用性。这种构建方式不仅简化了数据结构,也为模型训练提供了清晰的多模态对齐基准。
特点
DocCI数据集展现出鲜明的多模态特性,专注于图像描述生成任务。其核心特征在于所有样本共享同一开放式问题“描述此图像”,这促使模型必须深入理解图像内容并生成连贯的文本描述。数据集包含近1.5万个样本,分为训练集与测试集,规模适中且结构清晰。图像与文本答案的配对设计,直接支持端到端的视觉语言建模。这种统一的问题框架降低了任务复杂度,使研究者能更专注于提升模型的内容理解与生成能力。
使用方法
该数据集适用于训练与评估视觉问答或图像描述生成模型。使用时,研究者可加载图像数据及其对应的固定问题与答案,构建多模态输入输出对。典型的流程包括利用训练集微调预训练的视觉语言模型,如基于Transformer的架构,使模型学会根据图像生成描述性文本。评估阶段则使用测试集,通过计算生成文本与参考答案之间的相似度指标(如BLEU、CIDEr)来衡量模型性能。这种使用方法直接支持图像理解与自然语言生成的交叉研究。
背景与挑战
背景概述
在视觉语言理解领域,多模态学习模型的发展亟需高质量且规模化的数据集支撑。DocCI数据集由Google研究团队于2023年创建,其核心研究问题聚焦于文档图像的内容理解与描述生成。该数据集旨在推动文档智能分析技术,通过结合视觉信息与自然语言处理,使模型能够准确解读复杂文档布局中的图文内容。DocCI的出现显著提升了文档图像描述任务的基准水平,为后续研究提供了关键的数据资源,并在文档数字化、信息检索等应用场景中展现出深远影响力。
当前挑战
DocCI数据集所解决的核心领域挑战在于文档图像描述的复杂性,这涉及对非结构化文档中文本、表格、图表等多元素的理解与连贯描述。构建过程中的主要挑战包括:如何从多样化的文档类型中收集高质量图像,确保标注的准确性与一致性,以及处理文档中可能存在的模糊、低分辨率或遮挡问题。此外,数据集的构建还需平衡不同文档类别与语言风格的覆盖度,以支持模型在真实场景下的泛化能力。
常用场景
经典使用场景
在视觉问答领域,DocCI数据集以其独特的文档图像描述任务,为多模态学习提供了经典的应用场景。该数据集通过将图像与文本描述配对,构建了一个包含近万张文档图像及其对应描述的丰富资源。研究者通常利用这一数据集训练模型,使其能够理解文档图像的内容,并生成准确、连贯的文本描述。这种场景不仅考验模型对视觉信息的解析能力,还要求其具备自然语言生成的流畅性,从而推动文档理解与视觉语言交互的深度融合。
解决学术问题
DocCI数据集有效解决了文档图像自动描述这一核心学术问题,填补了传统视觉问答任务在文档领域应用的空白。它通过提供大规模、高质量的标注数据,支持模型学习从复杂文档布局中提取语义信息,并转化为自然语言描述。这一过程有助于克服文档图像中文字密集、结构多样带来的挑战,促进了多模态表示学习、跨模态对齐及生成模型的发展,为文档智能化处理奠定了坚实的实证基础。
衍生相关工作
围绕DocCI数据集,衍生了一系列经典研究工作,主要集中在文档视觉问答和图像描述生成方向。这些工作探索了基于Transformer的多模态架构,如将视觉编码器与语言模型结合,以提升文档描述的准确性和上下文连贯性。此外,部分研究进一步扩展了数据集的用途,将其应用于文档分类、信息提取等下游任务,丰富了文档智能领域的理论框架与实践方法,持续引领该领域的技术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作