five

wikiHow-TIIR|文本图像检索数据集|信息检索数据集

收藏
arXiv2025-02-18 更新2025-02-20 收录
文本图像检索
信息检索
下载链接:
https://github.com/vec-ai/wikiHow-TIIR
下载链接
链接失效反馈
资源简介:
wikiHow-TIIR数据集是基于wikiHow教程构建的,包含15万个交错式文本-图像文档的检索语料库。该数据集通过特定的管道利用大型语言模型和文本到图像生成器自动生成交错式查询。数据集在构建过程中,通过人工标注和筛选生成了7654个高质量的查询-文档对作为测试集,其余生成的查询作为训练集。该数据集旨在解决文本-图像交错式检索任务,推动相关研究的进展。
提供机构:
哈尔滨工业大学, 香港理工大学
创建时间:
2025-02-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了解决现有多模态信息检索研究主要关注单一图像输入的问题,本研究提出了文本-图像交错检索(TIIR)任务,并构建了基于自然交错wikiHow教程的TIIR基准。通过设计特定的流水线,该基准能够生成交错的查询,从而使得模型能够理解交错上下文的语义,实现有效的检索。为了探索TIIR任务,研究团队对几个现成的检索器进行了适配,并构建了一个基于交错的 multimodal large language model (MLLM) 的密集基线。此外,还提出了一个新的 Matryoshka Multimodal Embedder (MME),用于解决 MLLM 基于的 TIIR 模型中视觉标记过多的挑战。
使用方法
使用该数据集时,需要遵循以下步骤:1) 数据预处理:对数据进行清洗、标注和过滤,确保数据的准确性和一致性;2) 模型训练:使用数据集训练 TIIR 模型,例如 MME,以实现更准确的检索;3) 模型评估:使用数据集中的测试集对模型进行评估,以验证模型的有效性和效率。
背景与挑战
背景概述
在多模态信息检索领域,当前的研究主要集中在单一图像输入上,这限制了在涉及多图像和文本-图像交错内容的现实世界应用中的应用。为了解决这一问题,研究人员Xin Zhang等人提出了文本-图像交错检索(TIIR)任务,其中查询和文档是交错的文本-图像序列,模型需要理解交错上下文的语义以实现有效检索。为了探索这一任务,他们基于自然交错的wikiHow教程构建了一个TIIR基准,并设计了一种特定的流程来生成交错查询。为了进一步研究,他们还对现有的检索器进行了适应性调整,并构建了一个基于交错的跨模态大型语言模型(MLLM)的密集基线。此外,他们还提出了一种新颖的Matryoshka多模态嵌入器(MME),该嵌入器以不同的粒度压缩视觉标记的数量,以解决基于MLLM的TIIR模型中视觉标记过多的问题。实验结果表明,现有模型的简单调整并不能始终如一地产生有效结果。与基线相比,MME通过显著减少视觉标记实现了显著的改进。他们提供了广泛的分析,并将发布数据集和代码以促进未来的研究。
当前挑战
TIIR任务面临的主要挑战包括:1)现有检索器难以有效地处理多图像和文本-图像交错内容;2)构建基于交错的MLLM的TIIR模型时,视觉标记数量过多导致计算效率低下和视觉信息在嵌入空间中的主导地位。为了解决这些问题,研究人员提出了MME,该嵌入器以不同的粒度压缩视觉标记的数量,以生成更有效的嵌入,从而提高TIIR模型的性能和效率。
常用场景
经典使用场景
wikiHow-TIIR数据集主要用于文本-图像交错检索任务,其中查询和文档都是交错排列的文本-图像序列。该数据集的经典使用场景包括但不限于:在电子商务搜索中,用户可以通过上传多张图片和文字描述来更准确地表达他们的信息需求,系统可以根据这些信息检索到最相关的商品信息;在信息检索增强生成(RAG)系统中,用户可以通过上传多张图片和文字描述来更准确地表达他们的信息需求,系统可以根据这些信息检索到最相关的文档信息。
解决学术问题
wikiHow-TIIR数据集解决了当前多模态信息检索研究中存在的单图像输入的限制问题,提出了文本-图像交错检索(TIIR)任务。该数据集通过构建基于自然交错wikiHow教程的TIIR基准,并设计了一个特定的流程来生成交错查询,从而有效地解决了多模态信息检索中的多图像和文本-图像交错内容检索问题。同时,该数据集还提出了一个新颖的Matryoshka Multimodal Embedder(MME)模型,该模型能够有效地处理多模态大语言模型(MLLM)中过多的视觉标记问题,从而提高了模型的检索效果和效率。
实际应用
wikiHow-TIIR数据集的实际应用场景包括但不限于:在电子商务搜索中,用户可以通过上传多张图片和文字描述来更准确地表达他们的信息需求,系统可以根据这些信息检索到最相关的商品信息;在信息检索增强生成(RAG)系统中,用户可以通过上传多张图片和文字描述来更准确地表达他们的信息需求,系统可以根据这些信息检索到最相关的文档信息。此外,该数据集还可以用于其他需要多模态信息检索的场景,如科学内容检索、视觉文档检索等。
数据集最近研究
最新研究方向
在多模态信息检索领域,wikiHow-TIIR数据集的提出标志着对文本-图像交错检索(TIIR)任务的深入研究。该数据集的构建旨在解决当前多模态检索研究中主要关注单一图像输入的问题,限制了涉及多图像和文本-图像交错内容的应用。通过将wikiHow教程转换为检索语料库,并设计一个高效的数据生成流程,该数据集为TIIR任务提供了一个基准。此外,研究团队还提出了一种名为Matryoshka Multimodal Embedder(MME)的新型检索模型,该模型通过压缩不同粒度的视觉标记数量来应对多模态大型语言模型(MLLM)中视觉标记过多的挑战。实验结果表明,MME模型在检索性能和效率方面都取得了显著提升。这项研究不仅为TIIR任务提供了新的研究方向,也为多模态检索的未来发展提供了有价值的见解。
相关研究论文
  • 1
    Towards Text-Image Interleaved Retrieval哈尔滨工业大学, 香港理工大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录