google/docci|图像描述数据集|文本生成数据集

hugging_face2024-07-24 更新2024-05-25 收录

图像描述

文本生成

下载链接：

https://hf-mirror.com/datasets/google/docci

下载链接

链接失效反馈

资源简介：

DOCCI（连接和对比图像的描述）是一个包含图像与详细描述配对的数据集。描述解释了图像的关键元素以及背景、光线和设置等次要信息。图像专门拍摄以帮助评估图像的精确视觉属性。DOCCI还包括许多相关图像，这些图像在关键差异上有所不同。所有描述均经过人工注释，以确保它们能够充分区分每个图像与其对应图像。数据集主要用于文本到图像和图像到文本的生成任务，包含图像和详细描述的配对，所有描述均由人工注释。数据集为单语言（英语），并且遵循CC BY 4.0许可。

提供机构：

google

原始信息汇总

数据集概述

数据集名称

名称: DOCCI
全称: Descriptions of Connected and Contrasting Images

数据集概要

描述: DOCCI是一个图像集合，每张图像都配有详细的描述。这些描述解释了图像的关键元素，以及背景、光照和设置等次要信息。图像特别拍摄以帮助评估图像的精确视觉属性，并包含许多与其他图像有主要差异的相关图像。所有描述都是手动标注，以确保它们充分区分每张图像与其对应图像。

支持的任务

任务: 文本到图像生成（Text-to-Image）和图像到文本生成（Image-to-Text）

语言

语言: 英语

数据集结构

数据实例

结构: 每个数据实例包含以下字段：
- image: 图像文件
- example_id: 示例的唯一ID
- description: 与图像关联的文本描述

数据字段

字段:
- image: 图像文件
- example_id: 示例ID，格式为<SPLIT_NAME>_<EXAMPLE_NUMBER>
- description: 图像的文本描述

数据分割

分割:
- DOCCI: 训练集9,647个，测试集5,000个，Qual Dev 100个，Qual Test 100个
- DOCCI-AAR: 训练集4,932个，测试集5,000个

数据集创建

数据收集

来源: 所有图像由作者及其家人拍摄

标注过程

标注: 所有文本描述由人工标注者编写，不依赖任何自动化过程

个人和敏感信息处理

处理: 手动审查所有图像以移除个人识别信息（PII），并对检测到的面部、电话号码和URL进行模糊处理

许可证信息

许可证: CC BY 4.0

AI搜集汇总

数据集介绍

构建方式

DOCCI数据集的构建基于专家生成和众包相结合的方式，旨在为文本到图像和图像到文本生成任务提供评估基准。数据集的图像由作者及其家庭成员拍摄，所有的文本描述均由人工标注者撰写，确保描述能够准确区分每幅图像及其对比图像的关键特征。

使用方法

使用DOCCI数据集时，用户可以通过其提供的训练集、测试集、质量开发集和质量测试集进行模型训练和评估。数据集的结构包括图像、唯一示例ID和相应的文本描述。用户在利用该数据集时，应遵循相关法律法规，尊重版权和隐私，并在可能的情况下对数据集的偏见和社会影响进行深入分析。

背景与挑战

背景概述

DOCCI（描述连接与对比图像）数据集，是一项旨在评估文本到图像（T2I）和图像到文本（I2T）生成性能的研究成果。该数据集由谷歌团队于2024年创建，核心研究人员包括Yasumasa Onoe等。DOCCI通过收集配对图像及其详尽描述，旨在帮助评估图像的精确视觉特性，并包含众多具有关键差异的相关图像。所有描述均由人工标注，确保每幅图像与其对应图像之间能有充分的区分度。该数据集的创建对图像描述生成领域产生了显著影响，为相关任务提供了一种新的评价标准。

当前挑战

DOCCI数据集在构建过程中面临的挑战主要包括：确保图像描述的准确性和区分度，这需要人工标注过程的高质量控制；在数据收集阶段，需避免个人敏感信息的泄露，保护隐私；同时，数据集中可能存在的偏见和局限性，例如对某些图像内容的覆盖不足，这些都需要在使用数据集时进行深入考虑和讨论。此外，数据集的多语言扩展和更大规模的样本收集也是未来的挑战之一。

常用场景

经典使用场景

在机器学习和自然语言处理领域，DOCCI数据集的经典使用场景主要围绕图像描述与图像生成任务。其独特的图像与详细描述配对，为模型训练提供了评估图像视觉特性的精准基准，从而促进文本到图像（T2I）和图像到文本（I2T）生成技术的发展。

解决学术问题

DOCCI数据集解决了图像描述中存在的模糊性和不精确性问题。通过提供具有细微差别的相关图像和详尽的描述，该数据集帮助学术界克服了传统图像描述数据集在区分相似图像方面的局限性，提升了模型的辨别力和描述准确性。

实际应用

实际应用中，DOCCI数据集可被用于改进图像识别系统的描述能力，如图像搜索、自动标签生成、视觉问答系统等。此外，其也为视觉辅助技术如屏幕阅读器提供了高质量的描述数据，从而增强了残障人士的交互体验。

数据集最近研究

最新研究方向

DOCCI数据集作为文本与图像互生任务的重要评估资源，近期研究聚焦于深度学习模型在图像描述生成与图像解析生成任务中的性能优化。其独特之处在于图像与描述之间的细微差异，为模型带来了区分度的挑战，从而推动了视觉与自然语言处理领域的研究进展。该数据集促使研究者深入探讨如何更准确地捕捉图像的视觉属性，并在文本描述中精确表达，进而提升模型在视觉问答、图像检索等相关任务的表现，对理解视觉信息与语言描述之间的内在联系具有深远影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

NEPSE Open Data

首个尼泊尔证券交易所（NEPSE）的开源金融数据集，旨在提高尼泊尔资本市场的透明度、学习和创新。

github 收录

IST-3 CT Head Scans

IST-3 CT头部扫描数据集由爱丁堡大学临床脑科学中心创建，包含10,659个CT系列，用于研究颅内动脉钙化的分割。数据集来源于第三届国际中风试验（IST-3），涉及3035名急性缺血性中风患者的非增强CT扫描。数据集创建过程中，通过与模板配准和质量控制，确保了数据的有效性和准确性。该数据集主要用于支持深度学习方法在中风风险评估中的应用，特别是在颅内动脉钙化的自动量化方面。

arXiv 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。

github 收录

OCRBench v2

OCRBench v2 是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动联合创建的一个大规模双语文本中心基准数据集。该数据集包含10,000条经过人工验证的问答对，涵盖了31种不同的场景，如街景、收据、公式、图表等。数据集通过23个任务评估LMMs在文本识别、文本定位、手写内容提取和逻辑推理等方面的能力。OCRBench v2 的创建过程包括从81个学术数据集中手动筛选数据，并补充私有数据以确保场景的多样性。该数据集主要用于评估LMMs在复杂OCR任务中的性能，旨在解决现有基准在任务多样性、上下文复杂性和规模上的不足。

arXiv 收录

CCI3-Data

CCI 3.0数据集是一个高质量、可靠的中文互联网数据语料库，于2023年11月29日开源。该数据集基于CCI（中文语料库互联网）数据集构建，采用了更严格的数据清洗方法，并进行了数据去重。数据处理规则包括基于关键词的安全过滤、垃圾信息过滤、低质量内容分类模型过滤以及数据集内外的去重。此外，数据集还添加了丰富的元信息，如质量评分和教育水平标签，用户可以利用这些元信息进一步过滤和定制数据集。CCI 3.0语料库的大小约为1000GB，适用于文本生成任务。

huggingface 收录