HiEviDR-Bench
收藏Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/Boggy666/HiEviDR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
HiEviDR-Bench是一个用于评估多模态深度研究中层次证据聚合的基准测试。它旨在评估模型是否能够正确地从大规模异构来源中检索、连接和综合证据,而不仅仅是生成流畅的最终答案或报告。该基准测试提供了对中间证据聚合过程的明确监督,每个实例都标注了一个证据图,捕捉证据如何被选择、跨源链接并聚合为中间主张和最终结论。发布的基准测试包含3,407个研究导向的问题、支持性语料数据、层次证据聚合的证据图、纯文本和多模态设置,以及开放领域和学术领域子集。HiEviDR-Bench支持细粒度分析,将每个示例制定为层次证据聚合问题,并开发了一个面向可追溯性的评估框架,包含五个维度:报告质量、证据可追溯性、引用准确性、主张验证和答案正确性。数据集结构包括问题ID、问题文本、参考答案、多模态输入和输出、证据ID列表、证据图和证据项等字段。
创建时间:
2026-04-15
原始信息汇总
HiEviDR-Bench数据集概述
数据集基本信息
- 名称: HiEviDR-Bench
- 许可证: Apache-2.0
- 任务类别: 视觉问答
- 主要语言: 英语
核心目标
HiEviDR-Bench是一个用于评估多模态深度研究中分层证据聚合的基准。它旨在评估模型是否能从大规模异构来源中正确检索、连接和综合证据,而不仅仅是生成流畅的最终答案或报告。
数据集构成
- 研究导向问题: 3,407个
- 支持语料库数据: 包含
- 证据图: 用于分层证据聚合
- 模态设置: 纯文本和多模态
- 领域子集: 开放领域和学术领域
任务描述
给定一个研究导向的问题,系统需要从多模态语料库中检索并聚合相关证据,然后生成:
- 结构化或长形式的报告
- 有依据的答案
涵盖模态
- 文本
- 多模态
涵盖领域
- 维基百科
- arXiv
数据结构
典型数据样本包含以下字段:
question_id: 问题实例的唯一标识符question: 研究导向的问题answer: 问题的参考答案mm_inputs: 与问题相关的多模态输入mm_outputs: 与参考答案相关的多模态输出evidence_ids: 与此问题相关的证据项ID列表evidence_graph: 描述证据如何支持中间主张和最终结论的分层证据图evidence_items: 原始证据项的字典ret2cid: 检索结果与引用/证据标识符之间的可选映射
评估框架
采用面向可追溯性的评估框架,包含五个维度:
- 报告质量
- 证据可追溯性
- 引用准确性
- 主张验证
- 答案正确性
其他信息
- 项目页面: https://boggysyb.github.io/HiEviDR-Bench.github.io/
- 联系方式: syb2000417@stu.pku.edu.cn
- 初始发布日期: 2026-04-17
搜集汇总
数据集介绍

构建方式
在深度研究领域,数据集的构建需兼顾多源信息的整合与结构化标注。HiEviDR-Bench的构建过程围绕研究导向型问题展开,通过精心设计的问题集与多模态语料库相结合,形成了包含3,407个问题的基准测试。每个实例均标注了证据图,该图以层次化方式呈现证据的选择、跨源链接及聚合过程,覆盖了文本与多模态两种设置,并细分为开放域与学术域子集。构建过程中特别强调了中间证据聚合的显式监督,确保数据能够支撑对模型推理链的细粒度评估。
使用方法
使用HiEviDR-Bench时,研究者需以研究导向型问题为输入,引导模型从多模态语料库中检索并聚合相关证据。典型的数据样本包含问题标识、问题文本、参考答案、多模态输入输出、证据标识列表及证据图等字段。评估过程中,模型需生成结构化报告或长文本回答,并依据证据图进行层次化推理。通过对比模型输出与标注的证据图及参考答案,可在五个评估维度上量化模型性能,尤其适用于分析多模态大语言模型在证据组合与主张级推理方面的能力。
背景与挑战
背景概述
随着多模态大语言模型的迅猛发展,深度研究任务对模型能力提出了更高要求,不仅需要生成流畅的最终答案或报告,更需具备从大规模异构源中检索、连接并综合证据的复杂推理能力。在此背景下,HiEviDR-Bench于2026年4月由相关研究团队正式发布,旨在系统评估模型在分层证据聚合方面的性能。该基准的核心研究问题聚焦于如何显式监督模型从证据选择、跨源链接到中间主张构建直至最终结论合成的全过程,从而推动深度研究系统从表面流畅性向深层证据组合与主张级推理的范式转变,对多模态问答与自动研究助理领域的发展具有重要影响力。
当前挑战
HiEviDR-Bench所针对的深度研究领域,其核心挑战在于模型需超越传统问答,实现证据的精准检索、跨模态信息的高效融合以及基于证据的层级化推理,而非仅追求答案的表面正确性。在数据集构建过程中,挑战主要体现在如何设计并标注能够清晰反映证据聚合过程的层级化证据图,以及如何构建涵盖开放域与学术域、文本与多模态的多样化实例,以确保评估的全面性与细粒度。此外,建立一套面向可追溯性的五维评估框架,并实现渐进式门控机制以精确定位错误来源,同样是构建过程中的关键难点。
常用场景
经典使用场景
在深度研究领域,HiEviDR-Bench作为评估分层证据聚合能力的基准,其经典使用场景聚焦于测试模型从大规模异构源中检索、连接并综合证据的效能。该数据集通过提供标注的证据图,使研究者能够系统评估模型在构建中间主张及最终结论时的推理过程,尤其适用于多模态大语言模型在开放域与学术域环境下的性能验证。
解决学术问题
该数据集针对深度研究中证据合成与主张级推理的薄弱环节,解决了现有基准仅关注最终答案正确性或报告流畅性的局限。通过引入可追溯性评估框架,它促进了模型在证据识别、组合及验证等中间步骤的细粒度分析,为提升多模态研究系统的可靠性与透明性提供了关键支撑。
实际应用
在实际应用中,HiEviDR-Bench可服务于学术搜索引擎、智能文献综述工具及自动化研究辅助系统。其分层证据结构有助于开发能够生成有据可查的长篇报告或分析结论的AI助手,从而在科学发现、教育研究及知识管理等领域增强信息处理的深度与准确性。
数据集最近研究
最新研究方向
在视觉问答与多模态深度学习研究领域,HiEviDR-Bench的推出标志着对证据层次聚合能力的系统性评估成为前沿焦点。该数据集通过引入证据图结构,推动研究从单纯关注答案正确性转向对中间推理过程的细粒度监督,尤其在开放域与学术域的多模态场景中,模型需在文本与视觉证据间建立可追溯的连接。当前热点集中于提升模型的引用准确性、主张验证与答案正确性,以解决现有系统在证据组合与主张级推理方面的根本性挑战。这一进展不仅深化了对深度研究系统能力的理解,也为构建可解释、可追溯的多模态人工智能奠定了关键基准。
以上内容由遇见数据集搜集并总结生成



