CompreCap

Hugging Face2024-12-12 更新2024-12-13 收录

下载链接：

https://huggingface.co/datasets/FanLu31/CompreCap

下载链接

链接失效反馈

官方服务：

资源简介：

CompreCap基准以人类注释的场景图为特点，专注于综合图像字幕的评估。它提供了新的语义分割注释，平均掩码覆盖率为95.83%。此外，数据集还包括高质量的对象属性描述和对象之间的方向关系描述，构成一个完整的有向场景图结构。注释包括分割掩码、类别名称、属性描述和关系描述，存储在./anno.json文件中。基于此基准，研究人员可以全面评估大型视觉语言模型生成的图像字幕的质量。

创建时间：

2024-12-10

原始信息汇总

数据集卡片：CompreCap

数据集描述

CompreCap 基准数据集以人工标注的场景图为核心，专注于综合图像描述的评估。该数据集为图像中的常见对象提供了新的语义分割标注，平均掩码覆盖率为 95.83%。除了对对象的仔细标注外，CompreCap 还包括高质量的对象属性描述以及对象之间的方向性关系描述，构成了一个完整且有向的场景图结构。

分割掩码、类别名称、属性描述和关系描述的标注保存在 ./anno.json 文件中。基于 CompreCap 基准，研究人员可以全面评估大型视觉-语言模型生成的图像描述质量。评估代码可在此处获取。

许可信息

图像数据以标准的 Creative Common CC-BY-4.0 许可证分发，单个图像受其各自版权保护。

引用

BibTeX: bibtex @article{CompreCap, title={Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning}, author={Fan Lu, Wei Wu, Kecheng Zheng, Shuailei Ma, Biao Gong, Jiawei Liu, Wei Zhai, Yang Cao, Yujun Shen, Zheng-Jun Zha}, booktitle={arXiv}, year={2024} }

搜集汇总

数据集介绍

构建方式

CompreCap数据集的构建以人类注释的场景图为核心，专注于全面图像描述的评估。该数据集不仅提供了图像中常见对象的新语义分割注释，平均掩码覆盖率达到95.83%，还详细描述了对象的属性及其之间的方向性关系，形成了一个完整且有向的场景图结构。这些注释包括分割掩码、类别名称、属性描述和关系描述，均保存在./anno.json文件中，为研究人员提供了丰富的视觉和语义信息。

特点

CompreCap数据集的显著特点在于其高精度的语义分割注释和详尽的场景图描述。每个对象不仅被精确分割，还附带了详细的属性描述和对象间的关系信息，这使得该数据集在评估图像描述生成模型的全面性方面具有独特优势。此外，数据集的场景图结构为研究视觉语言模型提供了丰富的上下文信息，有助于提升模型在复杂场景理解中的表现。

使用方法

研究人员可以通过访问./anno.json文件获取CompreCap数据集的详细注释，包括分割掩码、类别名称、属性描述和关系描述。基于这些注释，研究者可以全面评估大型视觉语言模型生成的图像描述质量。此外，数据集的评估代码已在GitHub上公开，便于研究者进行模型性能的验证和比较。通过这些资源，研究者能够深入探索和优化图像描述生成模型的性能。

背景与挑战

背景概述

CompreCap数据集由Fan Lu等人于2024年创建，旨在通过人类注释的场景图评估全面图像描述的生成。该数据集不仅提供了图像中常见对象的语义分割注释，平均掩码覆盖率达到95.83%，还包含了对象属性及对象间方向关系的详细描述，形成了一个完整且有向的场景图结构。CompreCap的推出，为研究人员提供了一个评估大型视觉语言模型生成图像描述质量的基准，进一步推动了图像描述生成领域的发展。

当前挑战

CompreCap数据集在构建过程中面临多重挑战。首先，高质量的语义分割注释和对象属性的详细描述需要大量的人工工作，确保了数据的准确性和完整性。其次，构建有向的场景图结构，涉及到复杂的对象间关系描述，这对注释的一致性和逻辑性提出了高要求。此外，如何有效评估和比较不同视觉语言模型生成的图像描述质量，也是一个重要的研究挑战。

常用场景

经典使用场景

CompreCap数据集以其详尽的人工标注场景图而著称，主要用于全面评估图像描述生成任务。该数据集不仅提供了图像中常见对象的语义分割标注，平均覆盖率达到95.83%，还包含了对象的属性描述及对象间的关系描述，形成了一个完整的有向场景图结构。通过这些丰富的标注信息，研究人员能够深入评估大型视觉-语言模型生成的图像描述质量，尤其是在复杂场景理解与描述方面的表现。

解决学术问题

CompreCap数据集解决了图像描述生成领域中长期存在的复杂场景理解与描述问题。传统图像描述模型往往难以处理多对象、多属性及复杂关系的场景，而CompreCap通过提供详细的场景图结构，使得模型能够更好地理解图像中的语义信息。这一突破不仅提升了图像描述的准确性和丰富性，还为视觉-语言模型的评估提供了新的基准，推动了该领域的学术研究进展。

衍生相关工作

基于CompreCap数据集，研究者们开展了一系列相关工作，推动了图像描述生成技术的发展。例如，有研究利用CompreCap的场景图结构，提出了新的图像描述生成模型，显著提升了描述的准确性和丰富性；还有研究基于CompreCap的标注信息，开发了新的评估指标，用于更全面地衡量图像描述模型的性能。这些工作不仅丰富了图像描述生成领域的研究内容，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集