wikiHow-TIIR

github2025-03-19 更新2025-03-01 收录

下载链接：

https://github.com/vec-ai/wikiHow-TIIR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于wikiHow教程构建的文本-图像交错检索（TIIR）基准数据集，包含155,262个示例，平均每个示例包含4.97张图像，文本标记平均为85.62个。数据集分为训练集和测试集，训练集包含73,084个查询，测试集包含7,654个查询。

This dataset is a text-image interleaved retrieval (TIIR) benchmark dataset constructed based on wikiHow tutorials. It contains 155,262 examples, with each example having an average of 4.97 images and an average of 85.62 text tokens. The dataset is split into training and test sets, where the training set includes 73,084 queries and the test set includes 7,654 queries.

创建时间：

2025-02-18

原始信息汇总

数据集概述

数据集名称

Towards Text-Image Interleaved Retrieval (TIIR)

数据集简介

针对多模态信息检索研究中主要关注单一图像输入的限制，本研究引入了文本-图像交错检索（TIIR）任务。在该任务中，查询和文档是交错的文本-图像序列，模型需要理解交错上下文中的语义以实现有效的检索。

数据集构成

基于自然交错的wikiHow教程构建TIIR基准数据集。
数据集包含以下部分：
- Corpus：共155,262个示例，平均/最小/最大图像数量为4.97/2/64，平均文本标记数为85.62。
- Train Query：共73,084个查询，平均图像数量为2.88，平均文本标记数为105.15，每个查询有1个正例。
- Test Query：共7,654个查询，平均图像数量为2.81，平均文本标记数为105.59，每个查询有1个正例。

模型与实验

对现有检索器进行适配，并构建了一个基于交错的 multimodal large language model (MLLM) 的密集基线。
提出了一个新颖的Matryoshka Multimodal Embedder (MME)，通过在不同粒度上压缩视觉标记的数量，解决MLLM基TIIR模型中视觉标记过多的挑战。
实验表明，简单适配现有模型并不能一致地产生有效结果。MME在显著减少视觉标记数量的情况下，相比基线模型有显著改进。

后续计划

发布模型训练和评估的代码。
发布数据整理的代码。
发布wikiHow-TIIR数据集。

数据集来源

数据集基于wikiHow-VGSI构建。

搜集汇总

数据集介绍

构建方式

wikiHow-TIIR数据集的构建是基于wikiHow教程中自然交错的文本与图像内容。研究者设计了一个特定的管道，以生成交错的查询，从而形成了这个包含155,262个示例的数据集，其中每个示例的平均图像数量为4.97，平均文本标记数为85.62。这一构建方式旨在模拟现实世界中涉及多图像和文本图像交织内容的检索场景。

使用方法

使用wikiHow-TIIR数据集时，研究者可以利用现有的现成检索器进行适配，并构建一个基于交织多模态大型语言模型的密集基线。为了探索这一任务，研究者还提出了MME模型。实验表明，简单的模型适配并不能一致地产生有效结果，而MME模型通过显著减少视觉标记的数量，在基线的基础上实现了显著改进。数据集的使用将涉及模型训练和评估代码的发布，以及数据整理代码的发布。

背景与挑战

背景概述

wikiHow-TIIR数据集是在多模态信息检索领域的一项重要研究成果，旨在解决现有研究对单一图像输入的依赖，这种依赖限制了涉及多图像和文本-图像交织内容现实世界应用的研究。该数据集创建于近期，主要研究人员不详，但显然是针对多模态检索任务的一项前沿探索。数据集基于wikiHow教程的自然交织特性构建，其核心研究问题是开发能够理解文本-图像交织上下文语义的检索模型，对多模态检索领域产生了显著影响。

当前挑战

该数据集面临的挑战主要在于：1) 如何处理和检索交织的文本-图像序列，这一任务要求模型不仅要理解图像和文本各自的语义，还要理解它们交织时的语境；2) 构建过程中，由于多模态数据处理的复杂性，如何有效地设计模型以应对过量的视觉标记问题。现有模型的简单适配并未能一致地产生有效结果，因此，研发新型多模态嵌入器，如Matryoshka Multimodal Embedder (MME)，以减少视觉标记数量并提高模型性能，是该数据集相关研究的重要挑战。

常用场景

经典使用场景

wikiHow-TIIR数据集针对多模态信息检索领域，专为解决文本与图像交织的检索任务而设计。在多模态信息检索研究中，该数据集的经典使用场景在于训练模型理解和处理文本与图像交替出现的序列信息，从而提高检索的准确性和有效性。

解决学术问题

该数据集解决了传统多模态检索中主要关注单一图像输入的局限性，为学术研究提供了处理复杂文本-图像交织内容的可能。通过此数据集，研究者能够构建并评估模型在理解交织语境中的语义，以实现有效的信息检索，这对于提升多模态信息处理的实际应用价值具有显著意义。

实际应用

在实际应用中，wikiHow-TIIR数据集可被用于开发智能搜索引擎，以支持包含步骤说明和图像的教程或指南的检索。例如，用户在寻找某个DIY项目步骤时，可以利用此技术快速定位到包含相关文本说明和图像的页面。

数据集最近研究