MERRIN

github2026-04-21 更新2026-04-17 收录

下载链接：

https://github.com/HanNight/MERRIN

下载链接

链接失效反馈

官方服务：

资源简介：

MERRIN是一个基准数据集，旨在评估搜索增强模型在回答问题时是否能自主决定检索和推理哪些非文本模态（图像、视频、图表）。所有162个问题满足三个标准：自然文本输入、需要非文本模态、单一明确的简短答案。数据集包含162个人工标注的问题，涵盖多种模态和问题类型。

MERRIN is a benchmark dataset designed to evaluate whether search-augmented models can autonomously decide which non-text modalities (images, videos, charts) to retrieve and reason over when answering questions. All 162 questions meet three criteria: 1. Natural text input; 2. Require non-text modalities; 3. Have a single, clear and concise answer. The dataset contains 162 annotated questions covering diverse modalities and data freshness.

创建时间：

2026-04-15

原始信息汇总

MERRIN 数据集概述

数据集基本信息

数据集名称：MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
数据集地址：https://huggingface.co/datasets/HanNight/MERRIN
项目网站：https://merrin-benchmark.github.io/
论文地址：https://arxiv.org/abs/2604.13418

数据集简介

MERRIN 是一个旨在评估搜索增强模型能否在回答问题时自主决定检索和推理哪些非文本模态（图像、视频、图表）的基准。数据集中的所有 162 个问题均满足三个标准：

自然文本输入：问题是纯语言描述，没有明确引用特定的模态来源。
需要非文本模态：正确答案严格需要视觉、视频或音频证据。
单一明确的简短答案：支持自动评估。

该基准测试了在嘈杂网络环境中从模态自主检索到跨模态推理的完整流程。

数据集构成与分布

数据集包含 162 个人工标注的问题，涵盖多种模态。

属性	分布
问题类型	多跳 (18%)，多模态冲突 (9%)，两者兼具 (73%)
所需模态	图像 (60%)，视频 (26%)，文本+图像 (8%)，图表 (3%)，其他 (3%)
时效性	永不变化 (58%)，缓慢变化 (23%)，快速变化 (19%)

数据集在 HuggingFace 上提供。question、answer 和 resources 字段被加密，以防止在大型语言模型训练语料库中造成数据污染。

数据加载与解密

通过运行以下命令加载并解密数据集： bash python load_dataset.py --output data/questions/MERRIN.jsonl

此命令从 HuggingFace 下载数据集，解密加密字段，并保存一个 JSONL 文件以供评估。

评估设置

模型在三种工具访问权限递增的设置下进行评估：

设置	描述
无搜索	模型仅依赖参数化知识。
原生搜索	模型使用提供商的内置搜索工具（例如，Gemini 的 `google_search + url_context`，OpenAI 的 `web_search`）。
智能体多模态搜索	模型使用具有网页搜索、页面访问、视频搜索和视频观看工具的自定义智能体框架。

支持的模型与提供商

目前支持三个模型提供商：

提供商	模型	原生搜索支持
Gemini	gemini-3-flash, gemini-3-pro, gemini-3.1-flash-lite, gemini-3.1-pro	✅ `google_search + url_context`
OpenAI / Azure	gpt-5.4-mini, gpt-5.4-nano	✅ `web_search`
开源模型 (vLLM)	Qwen3-4B-Thinking, Qwen3-30B-A3B-Thinking, Qwen3-235B-A22B-Thinking	❌ （仅限智能体框架）

使用方式

无搜索 / 原生搜索评估

使用 --conditions 参数控制模型可以访问的搜索工具。

智能体多模态搜索评估

可用的智能体工具包括：

web_search：通过 Serper API 进行谷歌搜索（默认 10 个结果）。
web_search_custom：可配置结果数量的搜索。
visit_webpage：获取并阅读网页（包括图像）。
search_video：通过 Serper API 搜索 YouTube 视频。
watch_video：处理 YouTube 视频以进行视觉和音频理解。

评分

使用 LLM-as-Judge 进行评分： bash python -m src.evaluate.run score experiments/results/gemini-3-pro-preview_no_search.jsonl --judge-model gemini-3-flash-preview

引用

如果使用 MERRIN，请引用论文： bibtex @article{wang2026merrin, title={MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments}, author={Han Wang and David Wan and Hyunji Lee and Thinh Pham and Mikaela Cankosyan and Weiyuan Chen and Elias Stengel-Eskin and Tu Vu and Mohit Bansal}, year={2026}, journal={arXiv preprint arXiv:2604.13418} }

搜集汇总

数据集介绍

构建方式

在构建多模态检索与推理基准的背景下，MERRIN数据集通过精心设计的人工标注流程得以创建。研究团队依据三项严格标准筛选了162个问题，确保每个问题均采用自然文本输入，且正确答案必须依赖图像、视频或图表等非文本模态证据，同时要求答案具有单一明确的简短形式。数据集的构建过程注重多样性与真实性，涵盖了多跳推理、模态冲突等多种问题类型，并考虑了信息新鲜度的不同层次，从而在嘈杂的网络环境中为评估模型的多模态自主检索与推理能力提供了坚实基础。

特点

MERRIN数据集的核心特点体现在其针对多模态检索与推理任务的专门化设计。该数据集不仅要求模型处理纯文本的自然语言问题，还强制其必须跨越模态边界，从视觉、听觉或图表等非文本源中提取关键证据。数据集的问题分布广泛，涉及图像、视频、图表等多种必需模态，并巧妙融合了多跳推理与模态冲突等复杂场景，这有效模拟了真实网络环境中信息冗余与噪声并存的挑战。此外，数据集通过加密关键字段以防止训练数据污染，进一步保障了评估的公正性与可靠性。

使用方法

为充分发挥MERRIN数据集的评估效能，其使用方法提供了从基础到进阶的灵活框架。用户可通过提供的脚本加载并解密数据集，随后在无搜索、原生搜索及智能体多模态搜索三种渐进的设置下对模型进行评估。评估流程支持包括Gemini、OpenAI及开源模型在内的多种模型提供商，用户可通过配置环境变量与模型参数，便捷地测试模型在不同工具访问权限下的表现。智能体框架更进一步，集成了网页搜索、页面访问、视频搜索与观看等工具，允许对模型的多模态自主决策与推理链条进行深入剖析，并通过LLM-as-Judge机制实现自动化评分。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态检索与推理能力成为关键瓶颈。MERRIN基准由北卡罗来纳大学教堂山分校、弗吉尼亚理工大学及德克萨斯大学奥斯汀分校的研究团队于2026年联合创建，核心成员包括Han Wang、David Wan、Mohit Bansal等学者。该数据集旨在评估增强检索模型在嘈杂网络环境中，能否自主决策并检索非文本模态证据以回答问题，其研究问题直指当前多模态系统在模态自主选择与跨模态融合推理上的不足。通过162个严格满足自然语言输入、需非文本证据且答案明确的标注问题，MERRIN推动了搜索增强生成模型在开放域复杂场景下的能力边界，为多模态人工智能的发展提供了重要的评估标准。

当前挑战

MERRIN基准所应对的核心领域挑战，在于解决多模态检索增强生成系统在开放网络环境中进行证据检索与推理的难题。具体而言，模型需从海量、异构且噪声充斥的网络数据中，自主识别问题所需的特定模态证据，并完成跨模态的协同推理，这对模型的模态感知、检索决策与信息融合能力提出了极高要求。在数据集构建层面，挑战主要体现在确保问题的自然性与答案的明确性，即设计无需显式模态指引的真实用户查询，同时严格限定答案需依赖视觉、视频或图表等非文本证据，并保持答案的单一性与可自动评估性，这一过程涉及复杂的人工标注与质量校验。

常用场景

经典使用场景

在人工智能与信息检索的交叉领域，MERRIN数据集为评估多模态检索增强模型提供了标准化的测试平台。其经典使用场景集中于模拟真实网络环境，要求模型自主判断并检索非文本模态证据，如图像、视频或图表，以回答仅通过纯文本描述的问题。研究者通常利用该数据集，在无搜索、原生搜索及智能体多模态搜索三种设定下，系统检验模型从跨模态检索到推理的全流程性能，从而推动多模态理解与自主决策能力的发展。

衍生相关工作

围绕MERRIN数据集，学术界已衍生出一系列聚焦于多模态检索与推理的经典研究工作。这些工作通常扩展了其评估范式，例如开发更高效的智能体框架以整合网页浏览与视频处理工具，或探索大型语言模型与视觉语言模型在原生搜索接口下的协同机制。同时，部分研究借鉴其问题构建逻辑，创建了针对特定模态或领域的新基准，进一步深化了对模型跨模态泛化能力与动态环境适应性的理解，推动了多模态人工智能技术栈的持续演进。

数据集最近研究