MM-BRIGHT
收藏arXiv2026-01-14 更新2026-01-16 收录
下载链接:
https://github.com/mm-bright/MM-BRIGHT
下载链接
链接失效反馈官方服务:
资源简介:
MM-BRIGHT是由因斯布鲁克大学、忠北大学等机构联合构建的多模态推理密集型检索基准,包含2,803条来自StackExchange的真实技术查询,涵盖STEM、社会科学等29个专业领域。数据集包含文本、图表、科学图像等7,621个标注视觉元素,平均每查询含2.01张图像,通过专家标注和AI辅助构建硬负样本。其创新性体现在融合视觉理解与逻辑推理的四级任务体系(文本→多模态),旨在解决技术场景中复杂多模态信息的精准检索问题,为下一代跨模态推理模型提供测试平台。
MM-BRIGHT is a multimodal reasoning-intensive retrieval benchmark jointly developed by institutions including the University of Innsbruck and Chungbuk National University. It comprises 2,803 real technical queries sourced from StackExchange, covering 29 professional fields such as STEM and social sciences. The dataset contains 7,621 annotated visual elements including text, charts, scientific images and more, with an average of 2.01 images per query. Hard negative samples are constructed through expert annotation and AI assistance. Its innovation lies in a four-level task framework that integrates visual understanding and logical reasoning (text → multimodal), which aims to address the precise retrieval of complex multimodal information in technical scenarios and provide a testbed for next-generation cross-modal reasoning models.
提供机构:
因斯布鲁克大学; 高等计算机与信息系统研究所; 忠北大学
创建时间:
2026-01-14
原始信息汇总
MM-BRIGHT 数据集概述
数据集简介
MM-BRIGHT 是首个用于推理密集型检索的多模态基准测试。它旨在解决现实世界中包含图像(如图表、示意图、截图)的查询需求,这些查询需要深度推理才能找到相关文档。
关键特征
- 总查询数:2,803
- 领域数量:29个不同的技术领域
- 总文档数:超过250万
- 检索任务:4个(多模态复杂性递增)
- 图像类型:照片、示意图、图表、截图、科学图表
- 数据来源:真实世界的 Stack Exchange 问答数据
四个检索任务
MM-BRIGHT 评估了四个多模态复杂性递增的检索任务:
| 任务 | 查询 | 目标 | 描述 |
|---|---|---|---|
| 任务 1 | 文本 | 文本 | 文本到文本检索(基线) |
| 任务 2 | 文本 + 图像 | 文本 | 多模态查询 → 文本文档 |
| 任务 3 | 文本 + 图像 | 图像 | 多模态查询 → 相关图像 |
| 任务 4 | 文本 + 图像 | 文本 + 图像 | 多模态查询 → 多模态文档 |
数据集统计
领域分类统计
STEM 与生命科学(9个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Academia | 26 | 60,050 | 1.77 |
| Bioacoustics | 41 | 29,812 | 2.17 |
| Bioinformatics | 90 | 45,545 | 1.62 |
| Biology | 99 | 89,435 | 2.96 |
| Chemistry | 65 | 36,043 | 2.54 |
| Earth Science | 85 | 73,451 | 2.15 |
| Math | 45 | 151,867 | 2.64 |
| Medical Sciences | 55 | 240,844 | 1.85 |
| Physics | 100 | 338,291 | 2.45 |
软件与技术系统(8个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Apple | 14 | 29,285 | 2.14 |
| Ask Ubuntu | 35 | 90,198 | 2.09 |
| Bitcoin | 64 | 29,595 | 1.48 |
| Crypto | 74 | 24,054 | 1.50 |
| GIS | 44 | 20,705 | 2.98 |
| Quantum Computing | 88 | 127,009 | 1.84 |
| Robotics | 30 | 11,185 | 2.33 |
| Salesforce | 10 | 8,890 | 2.50 |
社会科学与人文科学(6个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Christianity | 30 | 37,875 | 1.47 |
| Economics | 31 | 18,431 | 1.84 |
| Islam | 27 | 14,079 | 1.33 |
| Law | 30 | 26,142 | 1.23 |
| Philosophy | 50 | 137,860 | 1.58 |
| Psychology | 87 | 328,520 | 1.67 |
应用领域(6个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Aviation | 125 | 203,938 | 2.41 |
| Gaming | 26 | 68,321 | 1.85 |
| PM | 50 | 93,376 | 1.56 |
| Quant | 34 | 64,044 | 1.38 |
| Sustainability | 62 | 32,365 | 1.61 |
| Travel | 68 | 68,063 | 1.84 |
数据访问
数据集可通过 Hugging Face 自动加载:
- 数据集地址:https://huggingface.co/datasets/mm-bright/MM-BRIGHT
- 加载文档:
load_dataset("mm-bright/MM-BRIGHT", "documents", split="academia") - 加载查询(任务1/2):
load_dataset("mm-bright/MM-BRIGHT", "examples", split="academia") - 加载多模态查询(任务3/4):
load_dataset("mm-bright/MM-BRIGHT", "examples_multimodal", split="academia")
基准测试对比
| 基准测试 | 查询数 | 领域数 | 模态 | 推理 | 多任务 |
|---|---|---|---|---|---|
| BRIGHT | 1,384 | 12 | 文本 | ✅ | ✅ |
| RAR-b | 45,745 | 17 | 文本 | ✅ | ❌ |
| WebQA | 7,540 | 开放 | IT → IT | ❌ | ❌ |
| UNIIR | 190K | 10 | 混合 | ❌ | ✅ |
| ViDoRe | 3,810 | 10 | T → IT | ❌ | ❌ |
| MMEB | 36K | 36 | 混合 | ❌ | ✅ |
| MM-BRIGHT | 2,803 | 29 | 混合 | ✅ | ✅ |
许可证
本项目采用 CC-BY-4.0 许可证。
搜集汇总
数据集介绍

构建方式
在信息检索领域,传统基准主要面向文本查询,而现实世界中的查询日益包含图表、截图等视觉元素,这些元素的理解需要深度推理。为填补这一空白,MM-BRIGHT数据集从StackExchange技术社区中精心筛选了2,803个真实世界多模态查询,涵盖29个技术领域。其构建过程遵循严谨的标注流程:首先由领域专家筛选包含关键图像且获得高质量回答的帖子,组合标题、正文和图像形成多模态查询;随后,标注员通过分析回答中的链接并借助AI助手(Gemini)发现相关文档,提取有助于推理的文本段落和图像作为正例;为构建具有挑战性的负例,利用GPT-4o生成旨在检索语义相关但内容不匹配的搜索查询,并据此收集主题相关但无关的文档和图像,确保模型无法依赖简单的语义匹配。所有标注结果均经过领域专家的人工核查与批准,保证了数据集的黄金标准质量。
特点
MM-BRIGHT作为首个专注于推理密集型检索的多模态基准,其核心特点体现在多重维度。数据集包含2,803个真实技术查询,广泛覆盖STEM、计算、社会科学及应用领域等29个专业方向,确保了评估场景的多样性与真实性。视觉内容极为丰富,查询图像涵盖照片、图表、示意图、科学图表等八种类型,且在超过90%的查询中,图像被判定为对理解问题至关重要或具有实质性帮助,而非装饰性内容。该基准系统性地定义了四种复杂度递增的检索任务,从纯文本检索到多模态文档检索,全面评估模型在不同模态组合下的推理能力。尤为关键的是,其相关性判断基于深度推理而非表面匹配,要求模型理解技术原理并进行逻辑推断,这使其区别于现有的多模态或推理密集型基准,构成了独特的评估挑战。
使用方法
MM-BRIGHT数据集旨在全面评估下一代检索模型在融合视觉理解与深度推理方面的能力。研究者可利用该数据集系统评估模型在四种预设任务上的表现:任务一(Query → Documents)作为纯文本基线,评估模型在不依赖视觉信息下的推理密集型检索能力;任务二(Query+Image → Documents)要求模型利用查询中的视觉上下文来改进文本文档检索;任务三(Query+Image → Images)专注于基于视觉推理的图像检索;任务四(Query+Image → Documents+Images)则是最具挑战性的多模态文档检索,要求模型联合评估文本和图像的相关性。评估应遵循标准信息检索协议,主要使用nDCG@10作为核心指标,对于多模态文档检索任务则采用分级相关性标签。通过在此基准上的广泛测试,研究者能够深入洞察当前模型在整合多模态信号与复杂技术推理方面的局限性,并为开发更先进的检索系统提供明确的改进方向。
背景与挑战
背景概述
在信息检索领域,随着现实世界查询日益包含图表、截图等视觉元素,传统基于文本的检索基准已难以满足对深度视觉推理的需求。MM-BRIGHT数据集由因斯布鲁克大学、高等计算机与信息系统学院及忠北国立大学的研究团队于2026年共同创建,旨在填补多模态推理密集型检索的评估空白。该数据集包含来自29个技术领域的2803个真实查询,首次将多模态查询与复杂推理任务相结合,通过四个渐进复杂度的检索任务(从纯文本到多模态文档检索),系统评估模型在整合视觉理解与逻辑推断方面的能力。其构建基于StackExchange社区的专业技术问答,确保了查询的复杂性和领域多样性,为下一代检索模型的发展提供了关键测试平台。
当前挑战
MM-BRIGHT数据集面临的挑战主要体现在两个层面:在领域问题层面,其核心目标是解决多模态推理密集型检索问题,即要求模型不仅能理解文本与图像的表面语义,还需进行深层次的技术推理,例如解读量子电路图、分析科学图表或诊断错误截图中的逻辑关联。当前主流模型在此任务上表现显著不足,最佳多模态模型在关键任务上的性能甚至低于纯文本基线,凸显了视觉推理与逻辑推断融合的固有难度。在构建过程中,数据集的创建需克服多项挑战:一是高质量正负样本的标注,需确保正文档提供推理支持而非直接答案,同时构造语义相关但逻辑无关的困难负样本以防止模型依赖简单匹配;二是多模态内容的质量控制,需对图像的必要性进行精细分类(关键、有益或冗余),并验证视觉元素在理解查询中的不可替代性;三是领域与图像类型的多样性平衡,需涵盖从STEM到人文社科等29个领域,并包含图表、照片、科学图像等八种视觉类型,以避免模型通过单一启发式策略取得虚假成功。
常用场景
经典使用场景
在信息检索领域,随着现实世界查询日益融合文本与图像等多模态元素,传统基于关键词或语义匹配的检索系统面临严峻挑战。MM-BRIGHT数据集应运而生,其最经典的使用场景在于评估和推动多模态推理密集型检索模型的发展。该数据集构建了从纯文本检索到多模态文档检索的四项渐进式复杂任务,涵盖29个技术领域,要求模型不仅理解查询中的图表、截图等视觉内容,还需进行深层次逻辑推理以定位相关文档。这一场景精准模拟了软件开发者调试错误时附带截图、生物学家查找特定显微图像等真实需求,为下一代检索系统提供了关键的测试平台。
解决学术问题
MM-BRIGHT数据集主要解决了多模态环境下推理密集型检索这一核心学术问题。传统检索基准大多局限于文本查询,而现有的多模态基准又往往侧重于表面的语义对应,缺乏对深度推理能力的考察。该数据集首次将多模态查询与跨技术领域的复杂推理需求相结合,填补了研究空白。它促使学术界重新审视视觉理解与逻辑推断的整合机制,为开发能够同时处理图像信息和执行多步推理的检索模型提供了明确方向。其意义在于推动了信息检索从简单的模态匹配向认知级理解的范式转变,对人工智能在专业领域的应用具有深远影响。
衍生相关工作
MM-BRIGHT数据集的提出,建立在对文本推理密集型检索基准(如BRIGHT、RAR-b)和早期多模态检索基准(如WebQA、CIRR)的深入分析之上,并指出了它们在结合深度推理与多模态理解方面的不足。该数据集本身已催生了一系列针对其挑战的模型评估与分析工作。论文中系统评估了包括BM25、Contriever、DiVeR、CLIP、Nomic-Vision在内的18种代表性检索模型,揭示了当前模型在视觉信息关键时性能反而下降等关键现象。这些发现为后续研究指明了改进路径,预计将衍生出更多专注于增强视觉推理能力、改进多模态表示学习以及设计新型检索架构的相关工作,持续推动该子领域的发展。
以上内容由遇见数据集搜集并总结生成



