MaskOVEN-Wiki

Name: MaskOVEN-Wiki
Creator: 北京理工大学计算机科学与技术学院，腾讯北京内容与平台事业群
Published: 2024-12-18 16:49:01
License: 暂无描述

arXiv2024-12-18 更新2024-12-20 收录

下载链接：

https://github.com/NP-NET-research/PL-VEL

下载链接

链接失效反馈

官方服务：

资源简介：

MaskOVEN-Wiki数据集是由北京理工大学和腾讯联合创建的，旨在支持像素级视觉实体链接任务。该数据集包含超过520万条标注，涵盖20,077个实体，主要来源于OVEN-Wiki数据集，并通过自动化的反向区域-实体标注框架生成。数据集的创建过程结合了知识增强和模型集成，确保了高精度的标注质量，标注成功率达到94.8%。该数据集主要应用于细粒度的视觉理解任务，如多模态知识图谱补全、视觉问答和图像检索，旨在解决复杂场景下的视觉实体链接问题。

MaskOVEN-Wiki dataset was jointly created by Beijing Institute of Technology and Tencent, aiming to support pixel-level visual entity linking tasks. This dataset contains over 5.2 million annotated instances, covering 20,077 entities, and is mainly derived from the OVEN-Wiki dataset, generated via an automated reverse region-entity annotation framework. The dataset construction process combines knowledge enhancement and model ensemble to ensure high-precision annotation quality, with an annotation success rate of 94.8%. It is mainly applied to fine-grained visual understanding tasks such as multimodal knowledge graph completion, visual question answering, and image retrieval, aiming to address visual entity linking issues in complex scenarios.

提供机构：

北京理工大学计算机科学与技术学院，腾讯北京内容与平台事业群

创建时间：

2024-12-18

原始信息汇总

MaskOVEN-wiki

数据集概述

名称: MaskOVEN-wiki
全称: Pixel-Level Visual Entity Linking Dataset
类型: 像素级视觉实体链接数据集

搜集汇总

数据集介绍

构建方式

MaskOVEN-Wiki数据集通过一种完全自动化的反向区域-实体标注框架构建，该框架旨在将图像中的像素级区域与知识库中的实体标签进行对齐。数据集的构建基于现有的OVEN-Wiki数据集，通过分割像素区域并根据实体标签进行标注，从而生成超过500万条像素级区域与实体级标签的对应关系。该过程利用了现有的标签信息，并通过知识增强的方法提高了标注的准确性，最终实现了94.8%的标注成功率。

特点

MaskOVEN-Wiki数据集的主要特点在于其像素级区域与实体级标签的精确对齐，涵盖了超过500万条标注，涉及20,077个实体。数据集通过反向标注框架和知识增强方法，显著提高了标注的准确性，尤其在处理长尾实体时表现出色。此外，数据集还引入了视觉语义分词方法，增强了区域交互注意力机制，进一步提升了模型的性能。

使用方法

MaskOVEN-Wiki数据集可用于训练和评估像素级视觉实体链接任务的模型。研究者可以通过该数据集进行模型的预训练和微调，以提高模型在视觉实体识别、视觉问答等任务中的表现。数据集的标注格式遵循COCO标准，便于与其他视觉数据集进行整合和比较。此外，数据集还提供了详细的统计信息和示例，帮助研究者更好地理解和利用数据。

背景与挑战

背景概述

MaskOVEN-Wiki数据集由北京理工大学和腾讯公司联合开发，旨在推动像素级视觉实体链接（Pixel-Level Visual Entity Linking, PL-VEL）任务的研究。该数据集通过完全自动化的逆向区域-实体标注框架构建，包含超过500万条像素级区域与实体标签的对齐标注。其核心研究问题是通过像素掩码将图像中的视觉提及与知识库中的实体进行匹配，从而实现细粒度的视觉理解。该数据集的构建不仅解决了传统文本查询在复杂场景中的局限性，还通过视觉语义标记化方法提升了区域交互注意力机制，推动了多模态知识图谱补全、视觉问答等领域的研究。

当前挑战

MaskOVEN-Wiki数据集在构建过程中面临多重挑战。首先，像素级视觉实体链接任务的复杂性要求高精度的标注，而传统的文本查询在处理复杂场景时存在模糊性和复杂性问题。其次，构建过程中需要处理大量数据，尤其是从数百万实体中进行高效搜索和匹配，这导致了标注准确性较低。此外，逆向标注框架虽然提高了标注成功率，但仍需解决长尾实体的标注难题。最后，数据集的构建还需应对错误传播、前景背景混淆等问题，这些问题通过模型集成和启发式规则过滤得到了一定程度的缓解，但仍需进一步优化。

常用场景

经典使用场景

MaskOVEN-Wiki数据集的经典使用场景主要集中在像素级视觉实体链接（PL-VEL）任务中。该数据集通过将图像中的像素掩码与知识库中的实体标签对齐，支持细粒度的视觉理解。典型的应用场景包括视觉问答（VQA）、图像描述生成和图像检索等任务，其中用户或模型可以通过简单的点击或绘制框来生成像素掩码，从而更高效地进行实体链接。

实际应用

MaskOVEN-Wiki数据集在实际应用中具有广泛的应用前景。例如，在视觉问答系统中，用户可以通过像素掩码快速定位图像中的特定对象，从而提高问答的准确性。此外，在图像检索和图像描述生成领域，该数据集可以帮助模型更好地理解图像中的细节，生成更精确的描述或检索结果。

衍生相关工作

MaskOVEN-Wiki数据集的发布推动了像素级视觉实体链接（PL-VEL）任务的研究，并衍生出了一系列相关工作。例如，基于该数据集的视觉语义标记化方法被广泛应用于多模态学习模型中，提升了模型对图像区域的理解能力。此外，该数据集还启发了其他研究者探索更高效的像素级标注方法和多模态融合技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集