Multi-Query Text Retrieval (MQTR)
收藏arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://github.com/yingift/MSTAR
下载链接
链接失效反馈官方服务:
资源简介:
MQTR数据集是首个用于评估多查询场景文本检索模型能力的基准数据集,包括四种查询类型和16,000张图像。该数据集由华中科技大学的研究团队构建,旨在解决现有场景文本检索方法对边界框标注依赖的问题,并支持多样化查询。MQTR数据集的构建过程采用了多个已标注的公开数据集和来自Google Image Search的图像,旨在满足实际应用中的多样化需求。该数据集在场景文本检索领域具有广泛的应用前景,有助于提高模型的检索性能和准确性。
The MQTR dataset is the first benchmark dataset for evaluating the performance of multi-query scene text retrieval models, which includes four query types and 16,000 images. Constructed by the research team from Huazhong University of Science and Technology, this dataset aims to address the dependency on bounding box annotations of existing scene text retrieval methods while supporting diverse queries. The construction of the MQTR dataset adopts multiple annotated public datasets and images sourced from Google Image Search, with the goal of meeting the diverse requirements in real-world applications. This dataset has broad application prospects in the field of scene text retrieval, and helps to improve the retrieval performance and accuracy of models.
提供机构:
华中科技大学
创建时间:
2025-06-12
原始信息汇总
MSTAR数据集概述
数据集基本信息
- 数据集名称:MSTAR (Box-free Multi-query Scene Text Retrieval with Attention Recycling)
- 官方实现:该数据集为论文《Box-free Multi-query Scene Text Retrieval with Attention Recycling》的官方实现
数据集组成
- 主要数据集来源:
- SynthText_900KDict数据集(https://github.com/lluisgomez/single-shot-str)
- MLT-5K数据集(https://github.com/lanfeng4659/STR-TDSL)
- 支持评估的数据集:
- SVT
- STR
- CTR
- Total-Text
- CTW
- ICDAR15
- PSTR
- MQTR
性能表现
六个单词检索公共数据集的评估
- 最佳平均准确率(MAP%):84.18 (MSTAR +rerank)
- 参与比较的方法包括:
- 基于框的方法:Mishra et al., Jaderberg et al., Gomez et al., Mafla et al., TDSL, Wang et al., Wen et al., FDP-RN50×16
- 无框方法:BLIP2 (FT), MSTAR
与主流场景文本识别方法的比较
- 最佳平均准确率(MAP%):84.18 (MSTAR +rerank)
- 参与比较的方法包括:
- 基于框的方法:ABCNet, MaskTextspotterV3, Deepsolo, TG-Bridge
- 无框方法:SPTSv2, MSTAR
PSTR数据集评估
- 最佳准确率:95.71 (MSTAR)
- 参与比较的方法:BLIP2, TDSL, SigLIP, FDP
MQTR数据集评估
- 最佳平均准确率(MAP%):66.78 (MSTAR)
- 参与比较的方法包括:
- 基于框的方法:ABCNet, MaskTextSpotter, TDSL, Deepsolo, TG-Bridge
- 无框方法:SPTSv2, BLIP2, SigLIP, BLIP2 (FT)
训练与评估
- 训练步骤:
- 准备SynthText_900KDict和MLT-5K数据集
- 提取图像到"images"文件夹
- 运行
bash run_scripts/eval/eval_mstar.sh
- 评估步骤:
- 将预训练权重放入"pretrained"文件夹
- 将数据集放入"datasets"文件夹
- 运行相应评估脚本
搜集汇总
数据集介绍

构建方式
Multi-Query Text Retrieval (MQTR) 数据集的构建基于对多样化场景文本检索需求的深入理解。该数据集整合了来自多个公开数据集(如SV、CTW、IC15、Total-Text和HierText)的图像,并通过人工筛选和算法组合生成了四种查询类型:单词、短语、组合查询和语义查询。具体而言,单词和短语子集通过频率统计筛选高频查询,组合查询子集则通过算法生成多词组合,语义查询子集则通过人工收集与标注,确保涵盖视觉语义与非OCR语义的复杂场景。
特点
MQTR 数据集作为首个支持多查询场景文本检索的基准测试集,其核心特点在于多样化的查询类型和丰富的图像样本。数据集包含16,000张图像和625个查询,覆盖单词、短语、组合查询及语义查询四种类型,尤其注重对细粒度文本实例(如小文本、密集文本)的覆盖。此外,数据集中引入了困难负样本,通过视觉或文本相似性增加检索难度,从而更全面地评估模型的跨模态对齐能力与语义理解能力。
使用方法
MQTR 数据集主要用于评估模型在多查询场景文本检索任务中的性能。使用时,研究者可通过计算查询与图像嵌入的余弦相似度进行初步排序,并利用重排名策略优化结果。对于组合查询,需对每个单词的相似度取均值;语义查询则依赖跨模态编码器的整体匹配分数。该数据集支持端到端训练与微调,尤其适合验证如MSTAR等无需框标注的模型在复杂检索场景中的泛化能力。
背景与挑战
背景概述
Multi-Query Text Retrieval (MQTR) 数据集由华中科技大学的研究团队于2025年提出,旨在解决场景文本检索领域中的多查询统一处理问题。该数据集包含16,000张图像和四种查询类型(单词、短语、组合查询和语义查询),是首个支持多查询场景文本检索评估的基准数据集。MQTR的构建基于对现有单查询数据集的扩展,并结合了真实场景中的复杂需求,如非OCR视觉语义理解和多关键词组合检索。该数据集的发布推动了场景文本检索从单一模态向多模态、多任务方向的演进,为跨模态对齐和细粒度文本感知研究提供了重要平台。
当前挑战
MQTR数据集面临的核心挑战体现在两个方面:在领域问题层面,传统方法依赖昂贵的边界框标注且难以统一处理多样化查询类型,而通用视觉语言模型对细粒度文本特征捕捉不足;在构建过程中,需解决多查询类型的语义鸿沟问题(如离散关键词组合与连续短语的差异),以及小文本实例在复杂背景下的标注难题。此外,数据集中引入的硬负样本(视觉/文本相似但语义不同的干扰项)对模型的判别能力提出了更高要求,而渐进式注意力机制的设计需平衡细粒度特征提取与计算效率之间的矛盾。
常用场景
经典使用场景
Multi-Query Text Retrieval (MQTR) 数据集在场景文本检索领域具有广泛的应用价值,特别是在多查询类型的统一检索任务中表现突出。该数据集通过整合单词、短语、组合查询和语义查询四种类型,为模型提供了丰富的检索场景。其经典使用场景包括自然图像中的文本检索,例如从街景图像中检索特定文本实例,或在文档图像中查找关键词组合。MQTR 的多样化查询设置使其能够模拟真实世界中的复杂检索需求,如同时检索多个不连续关键词或理解文本的视觉语义上下文。
解决学术问题
MQTR 数据集有效解决了场景文本检索领域的几个关键学术问题。首先,它突破了传统方法依赖昂贵边界框标注的限制,通过无框设计降低了数据标注成本。其次,该数据集首次实现了多查询类型的统一评估,解决了以往方法难以同时处理单词、短语、组合查询和语义查询的难题。此外,MQTR 通过引入硬负样本,提升了模型在视觉和文本相似干扰下的区分能力,为细粒度文本检索研究提供了新的评估基准。这些创新显著推动了场景文本检索领域向更实用、更高效的方向发展。
衍生相关工作
MQTR 数据集的发布催生了一系列相关研究工作。基于该数据集提出的 MSTAR 方法创新性地采用注意力循环机制实现无框文本检索,成为后续研究的基准模型。多实例匹配模块的设计启发了跨模态对齐的新思路,被应用于文档检索系统 ColPALI 等工作中。此外,MQTR 的评估框架推动了细粒度视觉语言理解的研究,如 CLIPter 等模型借鉴了其渐进式视觉嵌入策略。这些衍生工作共同推动了场景文本检索与其他视觉语言任务的融合发展。
以上内容由遇见数据集搜集并总结生成



