MM-BRIGHT
收藏github2026-01-14 更新2026-01-15 收录
下载链接:
https://github.com/mm-bright/MM-BRIGHT
下载链接
链接失效反馈官方服务:
资源简介:
MM-BRIGHT是第一个用于推理密集型检索的多模态基准测试,包含2,803个查询和超过250万个文档,涵盖29个不同的技术领域。它评估了四种多模态复杂性递增的检索任务,包括文本到文本检索、多模态查询到文本文档、多模态查询到相关图像以及多模态查询到多模态文档。
MM-BRIGHT is the first multimodal benchmark for dense retrieval reasoning. It encompasses 2,803 queries and over 2.5 million documents, spanning 29 distinct technical domains. It evaluates four retrieval tasks with increasing multimodal complexity, including text-to-text retrieval, multimodal query to text documents, multimodal query to relevant images, and multimodal query to multimodal documents.
创建时间:
2026-01-06
原始信息汇总
MM-BRIGHT 数据集概述
数据集基本信息
- 数据集名称:MM-BRIGHT (Multi-Task Multimodal Benchmark for Reasoning-Intensive Retrieval)
- 核心定位:首个用于推理密集型检索的多模态基准测试。
- 核心问题:针对包含图像(如图表、示意图、截图)的真实世界查询,这些查询需要密集推理才能找到相关文档。
- 数据来源:真实世界的 Stack Exchange 问答数据。
- 许可证:CC-BY-4.0。
数据集规模与构成
- 总查询数:2,803。
- 总文档数:超过 250 万。
- 涵盖领域:29 个不同的技术领域。
- 图像类型:照片、图表、示意图、截图、科学图表。
检索任务
数据集包含四个多模态复杂性递增的检索任务:
| 任务 | 查询模态 | 目标模态 | 描述 |
|---|---|---|---|
| 任务 1 | 文本 | 文本 | 文本到文本检索(基线) |
| 任务 2 | 文本 + 图像 | 文本 | 多模态查询 → 文本文档 |
| 任务 3 | 文本 + 图像 | 图像 | 多模态查询 → 相关图像 |
| 任务 4 | 文本 + 图像 | 文本 + 图像 | 多模态查询 → 多模态文档 |
领域分类与统计
数据集涵盖 29 个领域,分为四类:
STEM 与生命科学 (9个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Academia | 26 | 60,050 | 1.77 |
| Bioacoustics | 41 | 29,812 | 2.17 |
| Bioinformatics | 90 | 45,545 | 1.62 |
| Biology | 99 | 89,435 | 2.96 |
| Chemistry | 65 | 36,043 | 2.54 |
| Earth Science | 85 | 73,451 | 2.15 |
| Math | 45 | 151,867 | 2.64 |
| Medical Sciences | 55 | 240,844 | 1.85 |
| Physics | 100 | 338,291 | 2.45 |
软件与技术系统 (8个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Apple | 14 | 29,285 | 2.14 |
| Ask Ubuntu | 35 | 90,198 | 2.09 |
| Bitcoin | 64 | 29,595 | 1.48 |
| Crypto | 74 | 24,054 | 1.50 |
| GIS | 44 | 20,705 | 2.98 |
| Quantum Computing | 88 | 127,009 | 1.84 |
| Robotics | 30 | 11,185 | 2.33 |
| Salesforce | 10 | 8,890 | 2.50 |
社会科学与人文科学 (6个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Christianity | 30 | 37,875 | 1.47 |
| Economics | 31 | 18,431 | 1.84 |
| Islam | 27 | 14,079 | 1.33 |
| Law | 30 | 26,142 | 1.23 |
| Philosophy | 50 | 137,860 | 1.58 |
| Psychology | 87 | 328,520 | 1.67 |
应用领域 (6个领域)
| 领域 | 查询数 | 文档数 | 平均图像数/查询 |
|---|---|---|---|
| Aviation | 125 | 203,938 | 2.41 |
| Gaming | 26 | 68,321 | 1.85 |
| PM | 50 | 93,376 | 1.56 |
| Quant | 34 | 64,044 | 1.38 |
| Sustainability | 62 | 32,365 | 1.61 |
| Travel | 68 | 68,063 | 1.84 |
性能基准
任务 1:文本到文本检索 (nDCG@10)
表现最佳的模型是 DiVeR,平均 nDCG@10 为 32.2。BM25 基线为 8.5。
任务 2:多模态到文本检索 (nDCG@10)
表现最佳的模型是 Nomic,平均 nDCG@10 为 27.6。
关键发现:即使是最先进的多模态模型在 MM-BRIGHT 上也表现不佳。最佳多模态模型 (Nomic-Vision: 27.6) 的表现低于最佳纯文本模型 (DiVeR: 32.2)。
数据获取与使用
- 托管平台:Hugging Face Datasets (https://huggingface.co/datasets/mm-bright/MM-BRIGHT)。
- 加载方式:使用
datasets库的load_dataset函数。 - 可用数据分割:
documents:加载文档。examples:加载查询(用于任务 1/2)。examples_multimodal:加载多模态查询(用于任务 3/4)。
- 加载示例:可按特定领域(如
"academia")加载数据。
评估代码
项目提供完整的评估代码,用于运行四个任务及批量实验。主要脚本包括 run_task1.py、run_task2.py、run_task3.py、run_task4.py 和批量实验运行器 run_experiments.py。
与现有基准对比
| 基准测试 | 查询数 | 领域数 | 模态 | 推理 | 多任务 |
|---|---|---|---|---|---|
| BRIGHT | 1,384 | 12 | 文本 | ✅ | ✅ |
| RAR-b | 45,745 | 17 | 文本 | ✅ | ❌ |
| WebQA | 7,540 | 开放域 | 图像→文本 | ❌ | ❌ |
| UNIIR | 190K | 10 | 混合 | ❌ | ✅ |
| ViDoRe | 3,810 | 10 | 文本→图像 | ❌ | ❌ |
| MMEB | 36K | 36 | 混合 | ❌ | ✅ |
| MM-BRIGHT | 2,803 | 29 | 混合 | ✅ | ✅ |
致谢
MM-BRIGHT 基于 BRIGHT 基准测试构建,并将其扩展到多模态领域。
搜集汇总
数据集介绍

构建方式
在信息检索领域,传统基准多聚焦于纯文本查询,而现实场景中常涉及图表、截图等视觉元素,需要深度推理才能准确关联文档。MM-BRIGHT数据集填补了这一空白,其构建源于真实世界的Stack Exchange问答平台,涵盖29个多样化的技术领域。通过精心筛选包含图像的多模态问题作为查询,并整合超过250万份相关文档,形成了涵盖文本与图像的丰富语料库。数据集的构建过程注重领域平衡与真实性,确保了查询与文档间存在复杂的语义与视觉关联,为推理密集型检索任务提供了扎实的基础。
特点
MM-BRIGHT作为首个专注于推理密集型检索的多模态基准,其核心特点体现在多任务与多模态的深度融合。数据集包含2,803个查询,覆盖STEM、软件技术、社会科学及应用领域等29个领域,每个查询平均伴随多幅图像,如图表、示意图和科学图表等。其设计了四种递进复杂度的检索任务,从纯文本检索逐步扩展到多模态查询对多模态文档的检索,全面评估模型在不同模态组合下的推理能力。与现有基准相比,该数据集不仅规模庞大,更强调跨模态的深度理解,为推进多模态检索研究提供了层次分明的评估框架。
使用方法
研究人员可通过Hugging Face平台便捷加载MM-BRIGHT数据集,利用提供的Python脚本进行多任务评估。数据集支持按领域灵活加载,例如通过指定“academia”等域名获取相应查询与文档。评估框架包含四个独立任务脚本,分别对应文本到文本、多模态到文本、多模态到图像及多模态到多模态文档的检索场景,用户可调用预置模型或集成自定义模型进行测试。此外,批处理实验运行器支持一次性执行全任务评估,输出结果便于横向比较模型性能。这种模块化设计使得数据集易于扩展,并能有效推动多模态检索算法的迭代与优化。
背景与挑战
背景概述
随着信息检索技术的演进,传统文本检索基准已难以应对现实世界中日益增多的多模态查询需求,尤其是在涉及图表、示意图等视觉元素的复杂场景下,单纯依赖关键词或语义匹配往往无法满足深度推理的要求。MM-BRIGHT数据集于2026年由相关研究团队推出,作为首个专注于推理密集型检索的多模态基准,它旨在填补这一研究空白。该数据集基于Stack Exchange的真实问答数据构建,涵盖29个多样化的技术领域,包含超过250万份文档和2803条查询,通过四项逐步提升多模态复杂度的检索任务,系统评估模型在跨模态理解与推理方面的能力,对推动多模态检索与人工智能交叉领域的发展具有重要影响。
当前挑战
MM-BRIGHT数据集致力于解决多模态推理密集型检索这一核心问题,其挑战主要体现在两个方面:在领域问题层面,现有检索模型难以有效融合文本与图像信息以进行深度推理,即使先进的多模态模型在任务中的表现仍逊于纯文本模型,揭示了跨模态语义对齐与复杂逻辑推理的不足;在构建过程中,从海量真实数据中筛选并标注高质量的多模态查询与文档,确保图像类型的多样性(如照片、图表、科学图示)与领域覆盖的均衡性,同时维护数据的一致性与可扩展性,均构成了显著的技术障碍。
常用场景
经典使用场景
在信息检索领域,传统基准多聚焦于纯文本查询,而现实世界中的检索需求常涉及图表、示意图等视觉元素,这要求系统具备跨模态推理能力。MM-BRIGHT作为首个面向推理密集型检索的多模态基准,其经典使用场景在于评估模型在复杂多模态查询下的检索性能,涵盖从纯文本到图文混合的四种渐进式任务,为研究者提供了一个系统化衡量模型跨模态理解与推理能力的标准平台。
解决学术问题
该数据集有效应对了多模态检索中推理能力评估的缺失问题。传统检索基准往往依赖关键词或语义匹配,难以处理需要深层逻辑分析与领域知识结合的图文混合查询。MM-BRIGHT通过引入涵盖29个技术领域的真实Stack Exchange问答数据,构建了包含图表、照片、科学图示等多种图像类型的查询-文档对,从而为学术界提供了首个专门用于评测推理密集型多模态检索的基准,推动了跨模态理解与复杂信息需求匹配的研究进展。
衍生相关工作
MM-BRIGHT的推出促进了多模态检索模型的一系列创新研究。基于其构建的评估框架,研究者们对如CLIP、SigLIP等视觉-语言模型以及DiVeR、GritLM等文本检索模型进行了系统性评测,揭示了当前模型在复杂多模态推理任务上的局限。这些工作不仅推动了如Nomic-Vision等专为多模态检索优化的模型发展,也催生了针对跨模态对齐、推理增强检索方法的新探索,为后续研究设立了重要的性能基线与改进方向。
以上内容由遇见数据集搜集并总结生成



