MERRIN
收藏MERRIN 数据集概述
数据集基本信息
- 数据集名称:MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
- 数据集地址:https://huggingface.co/datasets/HanNight/MERRIN
- 项目网站:https://merrin-benchmark.github.io/
- 论文地址:https://arxiv.org/abs/2604.13418
数据集简介
MERRIN 是一个旨在评估搜索增强模型能否在回答问题时自主决定检索和推理哪些非文本模态(图像、视频、图表)的基准。数据集中的所有 162 个问题均满足三个标准:
- 自然文本输入:问题是纯语言描述,没有明确引用特定的模态来源。
- 需要非文本模态:正确答案严格需要视觉、视频或音频证据。
- 单一明确的简短答案:支持自动评估。
该基准测试了在嘈杂网络环境中从模态自主检索到跨模态推理的完整流程。
数据集构成与分布
数据集包含 162 个人工标注的问题,涵盖多种模态。
| 属性 | 分布 |
|---|---|
| 问题类型 | 多跳 (18%), 多模态冲突 (9%), 两者兼具 (73%) |
| 所需模态 | 图像 (60%), 视频 (26%), 文本+图像 (8%), 图表 (3%), 其他 (3%) |
| 时效性 | 永不变化 (58%), 缓慢变化 (23%), 快速变化 (19%) |
数据集在 HuggingFace 上提供。question、answer 和 resources 字段被加密,以防止在大型语言模型训练语料库中造成数据污染。
数据加载与解密
通过运行以下命令加载并解密数据集: bash python load_dataset.py --output data/questions/MERRIN.jsonl
此命令从 HuggingFace 下载数据集,解密加密字段,并保存一个 JSONL 文件以供评估。
评估设置
模型在三种工具访问权限递增的设置下进行评估:
| 设置 | 描述 |
|---|---|
| 无搜索 | 模型仅依赖参数化知识。 |
| 原生搜索 | 模型使用提供商的内置搜索工具(例如,Gemini 的 google_search + url_context,OpenAI 的 web_search)。 |
| 智能体多模态搜索 | 模型使用具有网页搜索、页面访问、视频搜索和视频观看工具的自定义智能体框架。 |
支持的模型与提供商
目前支持三个模型提供商:
| 提供商 | 模型 | 原生搜索支持 |
|---|---|---|
| Gemini | gemini-3-flash, gemini-3-pro, gemini-3.1-flash-lite, gemini-3.1-pro | ✅ google_search + url_context |
| OpenAI / Azure | gpt-5.4-mini, gpt-5.4-nano | ✅ web_search |
| 开源模型 (vLLM) | Qwen3-4B-Thinking, Qwen3-30B-A3B-Thinking, Qwen3-235B-A22B-Thinking | ❌ (仅限智能体框架) |
使用方式
无搜索 / 原生搜索评估
使用 --conditions 参数控制模型可以访问的搜索工具。
智能体多模态搜索评估
可用的智能体工具包括:
web_search:通过 Serper API 进行谷歌搜索(默认 10 个结果)。web_search_custom:可配置结果数量的搜索。visit_webpage:获取并阅读网页(包括图像)。search_video:通过 Serper API 搜索 YouTube 视频。watch_video:处理 YouTube 视频以进行视觉和音频理解。
评分
使用 LLM-as-Judge 进行评分: bash python -m src.evaluate.run score experiments/results/gemini-3-pro-preview_no_search.jsonl --judge-model gemini-3-flash-preview
引用
如果使用 MERRIN,请引用论文: bibtex @article{wang2026merrin, title={MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments}, author={Han Wang and David Wan and Hyunji Lee and Thinh Pham and Mikaela Cankosyan and Weiyuan Chen and Elias Stengel-Eskin and Tu Vu and Mohit Bansal}, year={2026}, journal={arXiv preprint arXiv:2604.13418} }




