five

MiroEval

收藏
arXiv2026-03-30 更新2026-04-01 收录
下载链接:
https://github.com/MiroMindAI/MiroEval
下载链接
链接失效反馈
官方服务:
资源简介:
MiroEval是由MiroMind团队开发的多模态深度研究代理评估基准,包含100个任务(70个纯文本和30个多模态),旨在解决现有评估方法在覆盖范围、真实性和时效性方面的不足。数据集通过双路径管道构建,结合了真实用户查询模式和实时网络趋势,支持定期更新以保持时效性。该数据集应用于评估深度研究系统在多维度上的性能,包括合成质量、事实准确性和研究过程严谨性,特别适用于金融、医疗和法律分析等高风险领域。

MiroEval is a multimodal deep research agent evaluation benchmark developed by the MiroMind team. It comprises 100 tasks, including 70 purely textual and 30 multimodal ones, and is designed to address the shortcomings of existing evaluation methods in terms of coverage, authenticity and timeliness. The dataset is constructed via a two-path pipeline that integrates real-world user query patterns and real-time web trends, and supports regular updates to maintain its timeliness. It is applied to evaluate the performance of deep research systems across multiple dimensions, including synthesis quality, factual accuracy and research process rigor, and is particularly suitable for high-stakes domains such as finance, healthcare and legal analysis.
提供机构:
MiroMind Team
创建时间:
2026-03-30
原始信息汇总

MiroEval 数据集概述

数据集基本信息

  • 数据集名称:MiroEval
  • 核心定位:一个用于深度研究系统的综合性评估框架,提供自动化的任务生成和跨三个互补维度的评估。
  • 评估维度
    1. 事实性评估:基于事实正确性。
    2. 要点质量评估:基于点对点的质量。
    3. 过程评估:基于研究过程质量。

数据内容与结构

  • 数据总量:包含100个评估查询。

    • 纯文本查询集 (mirobench_text.json):70个。
    • 多模态查询集 (mirobench_multimodal.json):30个,附带图像/文档等附件。
  • 数据目录结构

    MiroEval/ ├── task_generation/ # 评估任务生成流水线 ├── data/ # 共享数据目录 │ ├── input_queries/ # 评估查询集 + 多模态附件 │ └── detail_results/ # 每个任务、每个模型的中间分数 ├── factual_eval/ # 事实性评估(基于MiroFlow的事实核查智能体) ├── point_quality/ # 质量评估(自适应点对点评分) └── process_eval/ # 过程评估(内在过程质量 + 报告一致性)

  • 附件文件:多模态查询的附件文件存储在 data/input_queries/multimodal-attachments/ 目录下,按查询ID组织。

数据格式规范

  • 查询模式
    • 纯文本查询模式:包含 id, chat_id, rewritten_query, annotation 等字段。annotation 中包含 category, language, pattern, domain 等信息。
    • 多模态查询模式:在纯文本模式基础上,增加 files 字段以引用附件文件。
  • 模式分类(适用于约50%的文本查询):
    • T1: 全景概览
    • T2: 对比评估
    • T5: 决策分析
    • T6: 方案设计
  • 领域分布:科技、金融、医疗、工程、商业、人文、科学、生活方式、网络安全、教育、能源、地缘政治、健康、法律、政策、贸易、其他。
  • 模型结果格式:每个模型一个JSON文件,包含完整的查询-响应对数组。每个条目需包含 id, chat_id, rewritten_query, annotation, response(模型生成的最终研究报告), process(模型的中介研究过程追踪)等字段。

评估模块详情

1. 事实性评估

  • 方法:基于 MiroFlow 智能体框架进行主动事实核查。通过搜索引擎自动提取和验证报告中的关键事实陈述。
  • 验证标签Right(正确)/ Wrong(错误)/ Unknown(无法验证)。多模态评估增加 Conflict(冲突)标签。
  • 核心指标:正确陈述比率 = Right / (Right + Wrong + Unknown + Conflict)。
  • 输出格式:每个查询生成包含 core_state 列表的JSON结果,其中包含 statement, verification, evidence, reasoning 等信息。

2. 要点质量评估

  • 方法:动态为每个查询任务生成评估维度、标准和权重的综合性自适应点对点质量评估。
  • 固定维度(4个):
    1. 覆盖度:覆盖的广度、深度和相关性。
    2. 洞察力:深度、原创性、逻辑和分析价值。
    3. 指令遵循:满足所有查询要求的准确性。
    4. 清晰度:可读性、流畅性、结构和易于理解的程度。
  • 流程:包含维度生成、权重分配、标准生成、逐项评分、分层聚合5个阶段。
  • 输出格式:包含模型平均总分、查询总数、各维度平均分等摘要信息,以及详细的查询结果。

3. 过程评估

  • 方法:评估模型研究过程的质量以及过程与最终报告之间的一致性。
  • 评估阶段
    1. 结构化阶段:自动检测不同模型的过程追踪格式,并将其统一为结构化JSON模式。
    2. 评估阶段
      • 内在评估:5个维度评估研究过程本身的质量。
      • 一致性评估:3个维度评估过程与报告之间的一致性。
  • 评估维度(8个):
    • 内在维度:搜索广度、分析深度、渐进式优化、批判性思维、效率。
    • 一致性维度:研究发现到报告的覆盖度、报告到过程的可追溯性、矛盾性(一致性)。
  • 输出格式:包含各维度平均分、内在平均分、一致性平均分、总体平均分等摘要信息,以及详细的条目结果。

使用前提与数据准备

  • 用户需自行创建 data/method_results/(纯文本)和 data/method_multimodal_results/(多模态)目录,并将模型输出文件(每个模型一个JSON数组文件)放置其中。
  • 各评估子项目管理自己的 .env 文件以配置API密钥。
  • 事实性评估需先将模型结果JSON数组转换为每项一个的独立文件。
搜集汇总
数据集介绍
main_image_url
构建方式
在深度研究系统评估领域,现有基准常因任务合成化、模态覆盖有限且难以随时间更新而面临挑战。MiroEval通过双路径构建流程应对这些局限,其基准包含100项任务,其中70项为纯文本,30项为多模态。第一条路径基于真实用户查询模式,通过隐私保护改写与难度分层,从内部测试阶段提炼出65项查询。第二条路径则依托实时网络趋势,通过自动化流程生成35项纯文本查询,并经过搜索验证、深度研究必要性筛选与逆向质量评估三重过滤,确保任务既反映真实需求又具备研究深度。这种设计支持定期更新,使基准能够持续演进,保持时效性。
特点
MiroEval的核心特点在于其多维度的评估框架与对真实研究流程的深入考察。该数据集不仅评估最终报告的质量,还通过自适应合成质量评估、智能事实性验证以及以过程为中心的评估三个互补维度,全面诊断深度研究系统的能力。自适应评估能根据任务特性动态生成评价维度与权重,而事实性验证则通过主动检索与推理,在网页来源和多模态附件中进行一致性检验。过程评估则审计系统在搜索、推理与精炼过程中的表现,揭示输出层面指标无法捕捉的弱点。此外,数据集的查询均根植于真实用户需求,覆盖12个领域与10种任务类型,确保了评估的广泛性与实用性。
使用方法
使用MiroEval进行评估时,研究者需将深度研究系统接入其评估框架。系统首先接收查询任务,其中可能包含文本指令或多模态附件,随后执行自主研究流程,生成带有引用的长篇幅报告。评估框架会从三个层面进行分析:自适应合成质量评估会基于任务特定规则对报告进行动态评分;智能事实性评估则分解报告中的声明,并通过检索与推理在网页和附件中验证其准确性;过程中心评估则解析系统的研究轨迹,从搜索广度、分析深度、渐进精炼、批判性思维与效率五个维度量化其内在质量,并检查过程与报告之间的对齐度。最终,综合得分提供了系统能力的全景诊断,支持跨模型的性能比较与弱点识别。
背景与挑战
背景概述
随着大型语言模型从被动文本生成向自主规划执行的智能体系统演进,深度研究作为通过迭代搜索、证据收集、验证与综合来探究复杂信息需求的自主多步骤过程,已成为该演进中的核心范式。MiroEval基准由MiroMind团队于2026年提出,旨在系统评估深度研究系统的综合能力。该基准的构建源于对现有评估体系局限性的深刻洞察:多数基准仅依赖固定标准评估最终报告,忽视了底层研究过程的质量,且普遍缺乏对多模态任务的支持,难以反映真实用户查询的复杂性。MiroEval通过整合70项纯文本任务与30项多模态任务,并建立基于真实用户需求的双路径构建管线,致力于为下一代深度研究智能体提供全面、动态的诊断工具,从而推动该领域向更可靠、可追溯且适应现实场景的方向发展。
当前挑战
MiroEval致力于解决的领域核心挑战在于对深度研究系统进行全方位、细粒度的能力评估。传统基准通常仅关注最终报告的质量,而深度研究的本质要求对研究过程本身——包括搜索广度、分析深度、渐进式优化、批判性思维与效率——进行系统性审计。此外,现实世界的研究任务常涉及图像、PDF、表格等多模态材料,要求系统具备跨模态的理解与推理能力,这构成了显著的评估难点。在数据集构建过程中,团队面临双重挑战:一是如何在不泄露用户隐私的前提下,从真实使用模式中提炼出具有代表性与复杂性的查询任务;二是如何设计一个支持定期更新的自动化生成管线,以确保基准能持续反映快速演进的信息环境与用户需求,避免因知识过时而失效。
常用场景
经典使用场景
在深度研究系统评估领域,MiroEval数据集作为一项综合性基准测试工具,其经典使用场景聚焦于对多模态深度研究智能体的全流程性能诊断。该数据集通过构建100个基于真实用户需求的任务(包含70个纯文本任务与30个多模态任务),系统性地评估智能体在复杂信息需求下的自适应合成质量、事实性验证与研究过程完整性。研究机构与开发团队可借助MiroEval对各类深度研究系统进行横向比较,例如在技术、金融、科学等12个领域内,测试系统在处理决策推荐、比较分析、事实枚举等10类任务时的综合表现,从而揭示不同模型在合成能力、事实准确性与过程严谨性三个维度的优势与短板。
实际应用
在实际应用层面,MiroEval数据集为金融分析、医疗诊断、法律研究等高风险领域的深度研究系统提供了可靠的性能验证平台。金融机构可利用该基准测试评估智能体在解读财经报表、整合市场趋势与多源数据时的合成质量与事实准确性;医疗研究团队可借助其多模态任务评估系统在处理医学影像与临床文献时的证据整合能力。此外,该数据集支持定期更新的双路径构建机制,能够持续纳入反映真实用户需求与实时网络趋势的新任务,确保评估环境与快速演进的信息生态保持同步,为产业界提供了可持续的系统优化与迭代依据。
衍生相关工作
MiroEval数据集的发布催生了一系列围绕深度研究系统评估的衍生研究工作。在基准测试构建方面,其基于真实用户查询的双路径任务生成方法启发了后续研究如LiveResearchBench对时态性用户需求的数据采集策略。在评估框架层面,其自适应合成质量评估与过程中心化审计机制为DeepResearchEval、ReportBench等后续基准提供了多维评估的设计参考。同时,该数据集揭示的多模态任务性能衰减现象促进了MMDeepResearch-Bench等专门针对多模态研究能力的基准开发。在系统优化方向上,MiroThinker系列模型基于MiroEval的评估反馈,进一步强化了过程轨迹的可追溯性与多模态证据的整合能力,形成了评估-改进的良性研究循环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作