实体图像数据集 (Entity Image Dataset, EI) 和混合模式图像检索数据集 (Mixed-Modal Image Retrieval Dataset, MMIR)

Name: 实体图像数据集 (Entity Image Dataset, EI) 和混合模式图像检索数据集 (Mixed-Modal Image Retrieval Dataset, MMIR)
Creator: 谷歌瑞士
Published: 2025-06-03 06:04:06
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/google-research-datasets/wit-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

实体图像数据集 (EI) 和混合模式图像检索数据集 (MMIR) 是两个新的数据集，旨在促进对图像检索的深度跨模态上下文理解。EI 数据集提供了维基百科实体的规范图像，而 MMIR 数据集则源自 WIT 数据集，包含两种具有挑战性的查询类型：单实体图像查询和多实体图像查询。这些数据集为混合模式检索提供了一个具有挑战性和上下文丰富的评估平台，有望推动更复杂和有效的模型的发展。MMIR 数据集覆盖了超过 100 种语言，是目前最大的多语言混合模式检索数据集之一。

Entity Image Dataset (EI) and Mixed-Mode Image Retrieval Dataset (MMIR) are two novel datasets developed to advance deep cross-modal contextual understanding for image retrieval. The EI dataset provides standardized images of Wikipedia entities, while the MMIR dataset, derived from the WIT dataset, features two challenging query types: single-entity image queries and multi-entity image queries. These datasets offer a challenging and context-rich evaluation platform for mixed-mode retrieval, and are expected to drive the development of more sophisticated and effective models. The MMIR dataset supports over 100 languages and is currently among the largest multilingual mixed-mode image retrieval datasets.

提供机构：

谷歌瑞士

创建时间：

2025-06-03

原始信息汇总

Entity Image and Mixed-Modal Image Retrieval Datasets 概述

数据集简介

Entity Image (EI) 数据集

内容：包含从Wikimedia Commons精选的实体典型图像集合。
特点：
- 每个实体对应一个从维基百科页面提取的代表性典型图像。
- 该图像作为实体的视觉标识。
规模：包含180万个实体，每个实体关联一个典型图像。

Mixed-Modal Image Retrieval (MMIR) 数据集

来源：基于Wikipedia Image Text (WIT) dataset构建。
特点：
- 包含超过900万个示例，涵盖100多种语言。
- 分为训练集、验证集和测试集。
- 数据划分与原始WIT数据集保持一致。
原始数据：WIT数据集包含3700万图像-文本对，1100万独特图像，涵盖100多种语言。

下载与使用

下载：数据集可通过data页面获取。
用途：旨在帮助研究人员构建更好的多模态检索模型，改进机器学习模型在视觉语言数据上的表现。

许可证

授权：采用Creative Commons Attribution-ShareAlike 3.0 Unported许可证。

联系方式

邮箱：wit-retrieval-dataset@google.com。

搜集汇总

数据集介绍

构建方式

实体图像数据集（EI）和混合模式图像检索数据集（MMIR）的构建过程体现了多模态数据处理的科学严谨性。EI数据集通过系统化的四阶段流程从维基媒体中精选实体典型图像，包括维基百科内容页面爬取、候选图像识别、整合及最终选择。MMIR数据集则基于维基百科图像文本（WIT）数据集，通过过滤和掩码处理生成，确保图像与文本的深度关联。

使用方法

该数据集适用于多模态图像检索任务的训练与评估。研究者可利用EI数据集中的典型图像增强实体识别能力，而MMIR数据集则通过其混合模态查询设计，为模型提供复杂的跨模态理解挑战。数据集的使用遵循CC-BY-SA许可，确保了研究的广泛可及性和法律合规性。

背景与挑战

背景概述

实体图像数据集（Entity Image Dataset, EI）和混合模式图像检索数据集（Mixed-Modal Image Retrieval Dataset, MMIR）由Google和Microsoft AI的研究团队于2025年6月发布，旨在解决多模态学习中混合模态图像检索领域缺乏具有挑战性基准的问题。EI数据集通过系统化的四阶段流程从维基百科中筛选出180万个实体的典型图像，而MMIR数据集则基于维基百科图像文本（WIT）数据集构建，包含超过900万个多语言示例，支持单实体和多实体图像查询。这一工作填补了现有基准在评估模型对视觉和文本模态上下文理解能力方面的空白，为多模态图像理解领域提供了重要的研究资源。

当前挑战

构建EI数据集面临实体图像代表性和质量控制的挑战，需通过多阶段筛选和人工验证确保图像与实体的精确匹配，同时处理多语言维基百科页面带来的数据异质性。MMIR数据集的挑战在于设计能够同时编码实体图像及其上下文关系描述的混合模态检索任务，要求模型具备跨模态的深度理解能力。此外，数据集的规模和多语言特性带来了计算效率和标注一致性的问题，而动态更新的维基百科内容也要求数据集定期更新以保持时效性。

常用场景

经典使用场景

在跨模态检索领域，实体图像数据集（EI）和混合模式图像检索数据集（MMIR）为研究者提供了一个全新的基准测试平台。EI数据集通过维基百科实体图像的系统化整理，为视觉实体识别任务提供了标准化的视觉标识符；而MMIR数据集则通过结合视觉实体与文本描述的复杂查询，推动了混合模态理解模型的深度评估。这些数据集特别适用于需要同时处理视觉和文本信息的场景，如多模态搜索引擎和智能问答系统。

解决学术问题

EI和MMIR数据集的推出，有效解决了跨模态检索领域缺乏高质量基准测试数据的问题。传统的数据集如MS COCO和Flickr30K主要关注单一模态的检索任务，而MMIR通过引入混合模态查询（如多实体图像与关系文本的组合），填补了复杂上下文理解评估的空白。此外，EI数据集通过严格的图像筛选和标注流程，提升了视觉实体识别的准确性和可解释性，为相关研究提供了可靠的数据支持。

实际应用

在实际应用中，EI和MMIR数据集为多模态技术的落地提供了重要支持。例如，在电子商务领域，基于MMIR的模型可以更精准地匹配用户输入的混合查询（如“红色连衣裙搭配黑色高跟鞋”），提升商品推荐效果。在教育和文化领域，EI数据集的标准实体图像可用于构建知识图谱的视觉化组件，增强用户体验。此外，这些数据集还可用于开发智能助手，帮助用户通过自然语言和图像组合进行高效信息检索。

数据集最近研究