Wiki-CoR

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.08254v1

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki-CoR数据集是由亚马逊团队创建的，用于评论检索任务（CoR）。该数据集结合了组成检索和视觉问题回答的特点，旨在回答给定的问题并生成额外的文本响应，以提供关于视觉信息的进一步澄清和细节。数据集中的实体是图像或图像和文本数据的组合，用于生成答案。该数据集的设计考虑了人类学习过程中视觉和文本联合考察的优势，有望促进这一领域的研究。

The Wiki-CoR dataset was created by the Amazon team for the Comment Retrieval (CoR) task. It combines the characteristics of compositional retrieval and visual question answering, aiming to answer given questions and generate additional textual responses to provide further clarification and details about visual information. The entities in this dataset are images or combinations of image and text data, which are used for answer generation. The design of this dataset takes into account the advantages of joint visual and textual learning in human learning processes, and is expected to promote research in this field.

提供机构：

亚马逊

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

Wiki-CoR数据集的构建方式是将视觉内容与语言描述相结合，以实现更复杂的查询处理。数据集通过引入实体适配器模块，将检索到的多模态实体重新注入到大型多模态模型（LMM）中，使其在生成答案和评论时能够关注这些实体。此外，Wiki-CoR数据集还融合了CIRR和WikiWeb2M数据集的特点，旨在创建一个既包含图像检索又包含文本生成任务的数据集，以便评估和训练模型在CoR任务上的性能。

使用方法

使用Wiki-CoR数据集的方法包括两个方面：一是通过注释检索任务来评估模型的检索能力，即给定一个查询图像和问题，模型需要从数据库中检索出一个图像，并生成一个额外的文本响应；二是通过文本生成任务来评估模型的文本生成能力，即模型需要根据检索到的实体生成一个与问题和目标图像相关的详细、复杂的文本响应。为了训练和评估模型，数据集提供了大量的训练和测试样本，并使用标准指标来衡量模型在检索和文本生成方面的性能。

背景与挑战

背景概述

随着多模态检索技术在近年来的迅速发展，其在图像、文本等多种模态信息检索方面展现出强大的性能。然而，现有的多模态检索方法在处理复杂的、需要推理视觉内容的组合查询时仍存在局限性。另一方面，大型多模态模型（LMMs）虽然能够用语言回答更复杂的视觉问题，但缺乏检索相关实体以支持其答案的能力。为了解决这些局限性，Maximilian Jaritz, Matthieu Guillaumin, Sabine Sternig, Loris Bazzani 等研究人员于 2025 年提出了 UniCoRN，一个统一的注释检索网络，结合了组合多模态检索方法和生成语言方法的优点，超越了检索增强生成（RAG）。UniCoRN 引入了一个实体适配器模块，将检索到的多模态实体重新注入到 LMM 中，使其在生成答案和评论时能够关注它们。通过保持基础 LMM 的冻结状态，UniCoRN 在能够执行检索和文本生成任务的同时，保留了其原始功能。为了评估这些新能力，研究人员引入了注释检索任务（CoR）和一个相应的数据集，目标是检索一个准确回答给定问题的图像，并生成一个额外的文本响应，提供关于视觉信息的进一步澄清和细节。UniCoRN 在多个数据集上的表现显示，与最先进的组合多模态检索方法相比，其召回率提高了 +4.5%，而在 CoR 任务中的评论方面，与 RAG 相比，METEOR 值提高了 +14.9%，BEM 值提高了 +18.4%。

当前挑战

UniCoRN 面临的主要挑战包括：1) 所解决的领域问题的挑战，即如何整合 LMMs 的多模态推理能力和组合多模态模型的检索能力；2) 构建过程中所遇到的挑战，即如何设计一个实体适配器模块，将检索到的多模态实体重新注入到 LMM 中，以便在生成答案和评论时能够关注它们。此外，为了训练和评估 UniCoRN，研究人员创建了两个具有挑战性的、由人工精心策划的 CoR 数据集，这些数据集结合了组合检索和视觉问答（VQA）的特点。这些数据集的创建和标注过程需要大量的人力和时间，并且需要确保数据的质量和多样性，以适应不同领域的需求。

常用场景

经典使用场景

在Wiki-CoR数据集的常见使用场景中，最经典的用途是通过其统一的评论检索网络（UniCoRN）来处理复杂的、组合式的查询。UniCoRN结合了组成多模态检索方法和生成式语言方法的优点，超越了检索增强生成（RAG）。通过引入实体适配器模块，UniCoRN能够将检索到的多模态实体重新注入到大型多模态模型（LMM）中，使其在生成答案和评论时能够关注这些实体。UniCoRN保留了LMM的原始能力，同时能够在一个集成框架下执行检索和文本生成任务。此外，Wiki-CoR数据集还引入了评论检索任务（CoR），旨在从数据库中检索一个准确回答给定问题的图像，并生成一个额外的文本响应，提供关于视觉信息的进一步澄清和细节。

解决学术问题

Wiki-CoR数据集解决了多模态检索方法在处理需要推理视觉内容的复杂、组合式查询方面的局限性。虽然大型多模态模型（LMMs）可以用语言回答更复杂的视觉问题，但它们缺乏检索相关实体的内在能力来支持其答案。UniCoRN通过结合LMMs的多模态推理能力和生成式语言方法的检索能力，解决了这些局限性。UniCoRN引入了实体适配器模块，将检索到的多模态实体重新注入到LMM中，使其在生成答案和评论时能够关注这些实体。UniCoRN保留了LMM的原始能力，同时能够在一个集成框架下执行检索和文本生成任务。此外，Wiki-CoR数据集还引入了评论检索任务（CoR），旨在从数据库中检索一个准确回答给定问题的图像，并生成一个额外的文本响应，提供关于视觉信息的进一步澄清和细节。这些创新使得UniCoRN在处理复杂的、组合式的查询方面取得了显著的进步。

实际应用

Wiki-CoR数据集的实际应用场景包括在线购物、新闻、维基百科等。在这些应用场景中，UniCoRN能够根据用户的查询和视觉内容检索相关实体，并生成详细的文本响应来提供进一步澄清和细节。例如，在在线购物中，UniCoRN可以根据用户的查询和商品图像检索相关商品，并生成详细的文本描述来帮助用户更好地了解商品。在新闻应用中，UniCoRN可以根据用户的查询和新闻图像检索相关新闻，并生成详细的文本摘要来帮助用户更好地理解新闻。在维基百科中，UniCoRN可以根据用户的查询和维基百科概念检索相关图像和文本，并生成详细的文本解释来帮助用户更好地理解概念。

数据集最近研究