google/docci

Name: google/docci
Creator: google
Published: 2024-07-24 16:00:33
License: 暂无描述

Hugging Face2024-07-24 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/google/docci

下载链接

链接失效反馈

官方服务：

资源简介：

DOCCI（连接和对比图像的描述）是一个包含图像与详细描述配对的数据集。描述解释了图像的关键元素以及背景、光线和设置等次要信息。图像专门拍摄以帮助评估图像的精确视觉属性。DOCCI还包括许多相关图像，这些图像在关键差异上有所不同。所有描述均经过人工注释，以确保它们能够充分区分每个图像与其对应图像。数据集主要用于文本到图像和图像到文本的生成任务，包含图像和详细描述的配对，所有描述均由人工注释。数据集为单语言（英语），并且遵循CC BY 4.0许可。

提供机构：

google

原始信息汇总

数据集概述

数据集名称

名称: DOCCI
全称: Descriptions of Connected and Contrasting Images

数据集概要

描述: DOCCI是一个图像集合，每张图像都配有详细的描述。这些描述解释了图像的关键元素，以及背景、光照和设置等次要信息。图像特别拍摄以帮助评估图像的精确视觉属性，并包含许多与其他图像有主要差异的相关图像。所有描述都是手动标注，以确保它们充分区分每张图像与其对应图像。

支持的任务

任务: 文本到图像生成（Text-to-Image）和图像到文本生成（Image-to-Text）

语言

语言: 英语

数据集结构

数据实例

结构: 每个数据实例包含以下字段：
- image: 图像文件
- example_id: 示例的唯一ID
- description: 与图像关联的文本描述

数据字段

字段:
- image: 图像文件
- example_id: 示例ID，格式为<SPLIT_NAME>_<EXAMPLE_NUMBER>
- description: 图像的文本描述

数据分割

分割:
- DOCCI: 训练集9,647个，测试集5,000个，Qual Dev 100个，Qual Test 100个
- DOCCI-AAR: 训练集4,932个，测试集5,000个

数据集创建

数据收集

来源: 所有图像由作者及其家人拍摄

标注过程

标注: 所有文本描述由人工标注者编写，不依赖任何自动化过程

个人和敏感信息处理

处理: 手动审查所有图像以移除个人识别信息（PII），并对检测到的面部、电话号码和URL进行模糊处理

许可证信息

许可证: CC BY 4.0

搜集汇总

数据集介绍

构建方式

DOCCI数据集的构建基于专家生成和众包相结合的方式，旨在为文本到图像和图像到文本生成任务提供评估基准。数据集的图像由作者及其家庭成员拍摄，所有的文本描述均由人工标注者撰写，确保描述能够准确区分每幅图像及其对比图像的关键特征。

使用方法

使用DOCCI数据集时，用户可以通过其提供的训练集、测试集、质量开发集和质量测试集进行模型训练和评估。数据集的结构包括图像、唯一示例ID和相应的文本描述。用户在利用该数据集时，应遵循相关法律法规，尊重版权和隐私，并在可能的情况下对数据集的偏见和社会影响进行深入分析。

背景与挑战

背景概述

DOCCI（描述连接与对比图像）数据集，是一项旨在评估文本到图像（T2I）和图像到文本（I2T）生成性能的研究成果。该数据集由谷歌团队于2024年创建，核心研究人员包括Yasumasa Onoe等。DOCCI通过收集配对图像及其详尽描述，旨在帮助评估图像的精确视觉特性，并包含众多具有关键差异的相关图像。所有描述均由人工标注，确保每幅图像与其对应图像之间能有充分的区分度。该数据集的创建对图像描述生成领域产生了显著影响，为相关任务提供了一种新的评价标准。

当前挑战

DOCCI数据集在构建过程中面临的挑战主要包括：确保图像描述的准确性和区分度，这需要人工标注过程的高质量控制；在数据收集阶段，需避免个人敏感信息的泄露，保护隐私；同时，数据集中可能存在的偏见和局限性，例如对某些图像内容的覆盖不足，这些都需要在使用数据集时进行深入考虑和讨论。此外，数据集的多语言扩展和更大规模的样本收集也是未来的挑战之一。

常用场景

经典使用场景

在机器学习和自然语言处理领域，DOCCI数据集的经典使用场景主要围绕图像描述与图像生成任务。其独特的图像与详细描述配对，为模型训练提供了评估图像视觉特性的精准基准，从而促进文本到图像（T2I）和图像到文本（I2T）生成技术的发展。

解决学术问题

DOCCI数据集解决了图像描述中存在的模糊性和不精确性问题。通过提供具有细微差别的相关图像和详尽的描述，该数据集帮助学术界克服了传统图像描述数据集在区分相似图像方面的局限性，提升了模型的辨别力和描述准确性。

实际应用

实际应用中，DOCCI数据集可被用于改进图像识别系统的描述能力，如图像搜索、自动标签生成、视觉问答系统等。此外，其也为视觉辅助技术如屏幕阅读器提供了高质量的描述数据，从而增强了残障人士的交互体验。

数据集最近研究