HiEviDR-Bench

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/Boggy666/HiEviDR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

HiEviDR-Bench是一个用于评估多模态深度研究中层次证据聚合的基准测试。它旨在评估模型是否能够正确地从大规模异构来源中检索、连接和综合证据，而不仅仅是生成流畅的最终答案或报告。该基准测试提供了对中间证据聚合过程的明确监督，每个实例都标注了一个证据图，捕捉证据如何被选择、跨源链接并聚合为中间主张和最终结论。发布的基准测试包含3,407个研究导向的问题、支持性语料数据、层次证据聚合的证据图、纯文本和多模态设置，以及开放领域和学术领域子集。HiEviDR-Bench支持细粒度分析，将每个示例制定为层次证据聚合问题，并开发了一个面向可追溯性的评估框架，包含五个维度：报告质量、证据可追溯性、引用准确性、主张验证和答案正确性。数据集结构包括问题ID、问题文本、参考答案、多模态输入和输出、证据ID列表、证据图和证据项等字段。

创建时间：

2026-04-15

原始信息汇总

HiEviDR-Bench数据集概述

数据集基本信息

名称: HiEviDR-Bench
许可证: Apache-2.0
任务类别: 视觉问答
主要语言: 英语

核心目标

HiEviDR-Bench是一个用于评估多模态深度研究中分层证据聚合的基准。它旨在评估模型是否能从大规模异构来源中正确检索、连接和综合证据，而不仅仅是生成流畅的最终答案或报告。

数据集构成

研究导向问题: 3,407个
支持语料库数据: 包含
证据图: 用于分层证据聚合
模态设置: 纯文本和多模态
领域子集: 开放领域和学术领域

任务描述

给定一个研究导向的问题，系统需要从多模态语料库中检索并聚合相关证据，然后生成：

结构化或长形式的报告
有依据的答案

涵盖模态

文本
多模态

涵盖领域

维基百科
arXiv

数据结构

典型数据样本包含以下字段：

question_id: 问题实例的唯一标识符
question: 研究导向的问题
answer: 问题的参考答案
mm_inputs: 与问题相关的多模态输入
mm_outputs: 与参考答案相关的多模态输出
evidence_ids: 与此问题相关的证据项ID列表
evidence_graph: 描述证据如何支持中间主张和最终结论的分层证据图
evidence_items: 原始证据项的字典
ret2cid: 检索结果与引用/证据标识符之间的可选映射

评估框架

采用面向可追溯性的评估框架，包含五个维度：

报告质量
证据可追溯性
引用准确性
主张验证
答案正确性

其他信息

项目页面: https://boggysyb.github.io/HiEviDR-Bench.github.io/
联系方式: syb2000417@stu.pku.edu.cn
初始发布日期: 2026-04-17

搜集汇总

数据集介绍

构建方式

在深度研究领域，数据集的构建需兼顾多源信息的整合与结构化标注。HiEviDR-Bench的构建过程围绕研究导向型问题展开，通过精心设计的问题集与多模态语料库相结合，形成了包含3,407个问题的基准测试。每个实例均标注了证据图，该图以层次化方式呈现证据的选择、跨源链接及聚合过程，覆盖了文本与多模态两种设置，并细分为开放域与学术域子集。构建过程中特别强调了中间证据聚合的显式监督，确保数据能够支撑对模型推理链的细粒度评估。

使用方法

使用HiEviDR-Bench时，研究者需以研究导向型问题为输入，引导模型从多模态语料库中检索并聚合相关证据。典型的数据样本包含问题标识、问题文本、参考答案、多模态输入输出、证据标识列表及证据图等字段。评估过程中，模型需生成结构化报告或长文本回答，并依据证据图进行层次化推理。通过对比模型输出与标注的证据图及参考答案，可在五个评估维度上量化模型性能，尤其适用于分析多模态大语言模型在证据组合与主张级推理方面的能力。

背景与挑战

背景概述

随着多模态大语言模型的迅猛发展，深度研究任务对模型能力提出了更高要求，不仅需要生成流畅的最终答案或报告，更需具备从大规模异构源中检索、连接并综合证据的复杂推理能力。在此背景下，HiEviDR-Bench于2026年4月由相关研究团队正式发布，旨在系统评估模型在分层证据聚合方面的性能。该基准的核心研究问题聚焦于如何显式监督模型从证据选择、跨源链接到中间主张构建直至最终结论合成的全过程，从而推动深度研究系统从表面流畅性向深层证据组合与主张级推理的范式转变，对多模态问答与自动研究助理领域的发展具有重要影响力。

当前挑战

HiEviDR-Bench所针对的深度研究领域，其核心挑战在于模型需超越传统问答，实现证据的精准检索、跨模态信息的高效融合以及基于证据的层级化推理，而非仅追求答案的表面正确性。在数据集构建过程中，挑战主要体现在如何设计并标注能够清晰反映证据聚合过程的层级化证据图，以及如何构建涵盖开放域与学术域、文本与多模态的多样化实例，以确保评估的全面性与细粒度。此外，建立一套面向可追溯性的五维评估框架，并实现渐进式门控机制以精确定位错误来源，同样是构建过程中的关键难点。

常用场景

经典使用场景

在深度研究领域，HiEviDR-Bench作为评估分层证据聚合能力的基准，其经典使用场景聚焦于测试模型从大规模异构源中检索、连接并综合证据的效能。该数据集通过提供标注的证据图，使研究者能够系统评估模型在构建中间主张及最终结论时的推理过程，尤其适用于多模态大语言模型在开放域与学术域环境下的性能验证。

解决学术问题

该数据集针对深度研究中证据合成与主张级推理的薄弱环节，解决了现有基准仅关注最终答案正确性或报告流畅性的局限。通过引入可追溯性评估框架，它促进了模型在证据识别、组合及验证等中间步骤的细粒度分析，为提升多模态研究系统的可靠性与透明性提供了关键支撑。

实际应用

在实际应用中，HiEviDR-Bench可服务于学术搜索引擎、智能文献综述工具及自动化研究辅助系统。其分层证据结构有助于开发能够生成有据可查的长篇报告或分析结论的AI助手，从而在科学发现、教育研究及知识管理等领域增强信息处理的深度与准确性。

数据集最近研究