Multi-Crit

Name: Multi-Crit
Creator: 马里兰大学帕克分校, 滑铁卢大学
Published: 2025-11-27 02:35:17
License: 暂无描述

arXiv2025-11-27 更新2025-11-28 收录

下载链接：

https://hf-mirror.com/datasets/txiong23/Multi-Crit

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Crit是由马里兰大学与滑铁卢大学联合构建的多模态评估基准，专注于评估模型在多元化标准遵循方面的能力。该数据集包含1425条经过精细标注的样本，涵盖开放生成与可验证推理两大任务类型，数据来源于8个权威多模态数据集并通过多阶段过滤机制确保质量。其构建过程采用严谨的人工标注流程，由9名博士标注者对每个样本进行多维度标准评估，最终形成包含标准冲突的标注体系。该数据集主要应用于多模态大模型的评估系统优化，旨在解决传统单维度评估无法捕捉标准间权衡与冲突的核心问题。

Multi-Crit is a multimodal evaluation benchmark jointly constructed by the University of Maryland and the University of Waterloo, focusing on evaluating models' ability to adhere to diverse standards. This dataset includes 1,425 meticulously annotated samples, covering two core task categories: open-ended generation and verifiable reasoning. The data is sourced from 8 authoritative multimodal datasets, and a multi-stage filtering mechanism is implemented to guarantee data quality. Its development follows a rigorous manual annotation pipeline: 9 doctoral annotators conduct multi-dimensional standard evaluations for each sample, ultimately forming an annotation system that incorporates standard conflicts. This dataset is primarily utilized for optimizing the evaluation systems of multimodal large language models (LLMs), with the goal of addressing the core limitation of traditional single-dimensional evaluation—its inability to capture the trade-offs and conflicts between different standards.

提供机构：

马里兰大学帕克分校, 滑铁卢大学

创建时间：

2025-11-27

搜集汇总

数据集介绍

构建方式

在构建Multi-Crit数据集时，研究团队通过多阶段筛选机制，从涵盖开放式生成与可验证推理任务的多样化多模态提示中，收集来自11个不同大型多模态模型的响应对。这些响应对经过长度归一化、正确性验证及基于集成模型的难度过滤，确保保留具有细微质量差异的挑战性样本。随后，由九名具备计算机科学背景的博士标注员，依据精心设计的十项评估准则，对每个响应对进行独立的多准则人工标注，并通过一致性检验与聚合流程，最终形成包含425个提示和1425条准则级标注的基准数据集。

特点

Multi-Crit数据集的显著特点在于其首次提供了多准则层面的人工偏好标注，揭示了同一响应对在不同评估维度下的潜在冲突，例如逻辑一致性与反幻觉能力之间的权衡。该数据集覆盖开放式内容生成与可验证推理两大领域，包含315个存在准则级冲突的提示，共计782个冲突对，充分体现了多模态评估的复杂性与多样性。此外，数据集中响应长度中位数达164词，远高于现有基准，进一步提升了评估的挑战性。

使用方法

使用Multi-Crit数据集时，研究者可将多模态提示与响应对输入待评估的法官模型，并针对每项准则单独进行推理，生成准则级的偏好判断。评估过程需严格遵循数据集提供的提示模板，确保模型专注于特定准则而避免交叉影响。通过计算复数准确率、权衡灵敏度与冲突匹配率三项指标，系统量化模型在遵循多样性评估准则、识别权衡关系及解析冲突方面的能力，从而全面评估多模态法官的复数准则遵循性能。

背景与挑战

背景概述

Multi-Crit数据集于2025年由马里兰大学帕克分校与滑铁卢大学的研究团队联合创建，旨在解决多模态大模型在评估生成内容时面临的评判标准单一化问题。该数据集聚焦于提升模型在遵循多样化、细粒度评价准则方面的能力，核心研究问题在于如何使LMM评判者能够准确理解并执行复数化的评估标准，从而更可靠地模拟人类在多维度质量评估中的复杂决策过程。Multi-Crit通过构建包含开放生成与可验证推理任务的大规模标注数据，推动了多模态人工智能评估系统向更高可解释性与可控性方向发展，为构建下一代可靠的多模态评判模型奠定了重要基础。

当前挑战

Multi-Crit数据集主要应对两大挑战：在领域问题层面，传统多模态评估基准仅提供整体偏好标签，无法捕捉响应质量在不同评价维度上的权衡与冲突，例如逻辑一致性与反事实幻觉之间的对立关系；在构建过程中，需通过多阶段过滤机制筛选具有细微质量差异的响应对，并设计覆盖视觉基础、逻辑连贯性等十个互补准则的标注体系，同时确保九名博士标注者在跨准则评估中达到科恩κ系数0.718-0.805的高一致性，最终从3538对初始数据中精炼出包含782个准则冲突对的基准集合。

常用场景

经典使用场景

在大型多模态模型评估领域，Multi-Crit数据集作为首个支持多元化标准遵循的基准测试工具，其经典应用场景聚焦于评估多模态法官模型在遵循细粒度评价标准方面的能力。该数据集通过精心设计的开放式生成与可验证推理任务，为研究者提供了包含多标准人工标注的挑战性响应对，使得模型能够在视觉基础、逻辑一致性、事实准确性等互补维度上接受系统性评估。这种多元化评估框架突破了传统单一偏好标签的限制，为深入理解模型在复杂评价场景中的表现提供了重要支撑。

衍生相关工作

基于Multi-Crit数据集的创新框架，衍生出了一系列重要的相关研究工作。在评估方法层面，研究者开发了多元化准确率、权衡敏感度与冲突匹配率等新型评估指标，为量化模型在多元化标准遵循能力方面提供了系统工具。在模型优化方向，该数据集启发了针对标准冲突识别与解决的专门化训练策略，推动了多模态法官模型从整体偏好对齐向细粒度标准遵循的能力演进。同时，数据集揭示的开放模型与专有模型在标准遵循能力上的显著差距，也催生了针对开放模型多元化评估能力提升的新一代训练范式与架构创新。

数据集最近研究