Multi-Crit

github2025-11-27 更新2025-11-28 收录

下载链接：

https://github.com/tyxiong23/Multi-Crit

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Crit是首个专门设计用于评估多模态判断模型是否能够遵循多样化、细粒度评估标准并提供可靠标准级别判断的基准测试。它为每对候选模型响应提供多标准人类偏好注释，并引入额外指标来评估LMM判断模型遵循多元标准以及处理标准级别权衡和冲突的能力。Multi-Crit提供了一个具有挑战性的测试套件，用于严格研究和改进多模态判断模型的可靠性和可操控性。

Multi-Crit is the first benchmark specifically designed to evaluate whether multimodal judgment models can adhere to diverse, fine-grained evaluation criteria and provide reliable criterion-level judgments. It provides multi-criteria human preference annotations for each pair of candidate model responses, and introduces additional metrics to assess the ability of LMM-based judgment models to follow multiple criteria and handle trade-offs and conflicts between different criteria. Multi-Crit offers a challenging test suite for rigorous research into and improvement of the reliability and controllability of multimodal judgment models.

创建时间：

2025-11-26

原始信息汇总

Multi-Crit 数据集概述

数据集简介

Multi-Crit是首个专门设计用于评估多模态评判模型是否能够遵循多样化、细粒度评估标准并提供可靠标准级别判断的基准。该数据集提供每对候选模型响应的多标准人类偏好标注，并引入额外指标来评估LMM评判器遵循多元标准的能力以及处理标准级别权衡和冲突的能力。

核心特性

评估范围覆盖

开放式内容生成：响应为自由形式，传统固定指标有限
可验证推理任务：评判模型评估导致客观可验证答案的模型生成推理过程的质量

评估标准体系

开放式任务标准

完整性与覆盖度：处理用户查询中任务的全部范围
视觉基础与细节：引用图像中可观察元素
事实性/无幻觉：避免视觉或事实错误
创造力与表达力：展示想象力和原创性
清晰度与连贯性：清晰逻辑地传达思想

推理任务标准

视觉基础：引用重要视觉元素
逻辑连贯性与一致性：遵循清晰逐步逻辑
事实性/无幻觉：确保所有声明的准确性
反思与探索：通过反思展示推理深度
简洁性与效率：保持简洁专注

数据规模与构成

425个多模态提示：来自8个评估源
响应对：来自11个现成LMMs
1,425个标准级别人类判断：
- 1,000个用于开放式任务
- 425个用于可验证推理任务
782个标准级别冲突案例：两个标准偏好不同响应

评估指标

核心指标

多元准确率：评判器为每个评估实例获得所有标准正确的程度
权衡敏感性：评判器在人类意见分歧时检测至少一个标准级别权衡的能力
冲突匹配率：评判器正确解决每个冲突标准对的能力

数据获取与使用

数据文件结构

datasets/ ├── images/ ├── multi-crit-openEnded-flatten.jsonl # 开放式分割数据 └── multi-crit-reasoning-flatten.jsonl # 推理分割数据

数据格式

数据采用JSONL格式，包含以下关键字段：

question_id：问题标识符
image_path：图像路径
split：数据分割类型
criterion：评估标准
preference：偏好选择
critic：评判器输出

相关资源

项目网页：https://multi-crit.github.io
数据集地址：https://huggingface.co/datasets/txiong23/multi-crit/

搜集汇总

数据集介绍

构建方式

在构建多模态评估基准的过程中，Multi-Crit数据集通过严谨的数据收集流程整合了来自8个评估源的425个多模态提示，并汇集了11种现成大型多模态模型生成的响应对。该数据集特别注重人类标注的质量，共收集了1,425个基于细粒度标准的偏好标注，其中开放生成任务占1,000个，可验证推理任务占425个。为了模拟真实评估场景，数据集中还包含了782个标准冲突案例，即不同标准对同一响应对给出相反偏好，从而为研究多标准权衡提供了丰富素材。

特点

Multi-Crit作为首个专注于评估多模态裁判模型遵循多样化细粒度标准能力的基准，其核心特点在于覆盖开放内容生成与可验证推理两大任务范畴。数据集针对每类任务定义了五维评估标准：开放生成侧重完整性、视觉基础、事实性、创造性与清晰度；推理任务则关注视觉基础、逻辑一致性、事实性、反思深度与简洁性。此外，该基准创新性地引入了三项元评估指标——多元准确度、权衡敏感性与冲突匹配率，能够全面衡量裁判模型在处理标准间冲突与权衡时的表现。

使用方法

使用Multi-Crit基准时，研究者需先通过提供的下载脚本获取图像数据与标注文件，数据集目录将包含开放生成与推理两个分片的JSONL文件。评估流程支持直接运行预置的GPT-4o示例脚本，也可通过定制化JSONL格式集成自建裁判模型：需在critic字段中记录原始预测、模型名称及最终偏好选择。基准输出将自动保存至指定路径，研究者可通过分析模型在多元准确度、权衡敏感性与冲突匹配率等指标上的表现，系统评估多模态裁判模型的标准遵循能力与冲突解决效能。

背景与挑战

背景概述

随着多模态大模型在内容生成与推理任务中的广泛应用，评估其输出质量的需求日益凸显。Multi-Crit由研究团队于2024年推出，旨在构建首个系统化评估多模态裁判模型遵循多样化细粒度标准能力的基准。该数据集聚焦于开放内容生成与可验证推理两大核心场景，通过整合来自8个评估源的425组多模态提示及11种主流模型的响应数据，为研究社区提供了1,425条人工标注的准则级偏好判断。其创新性在于首次将多准则冲突与权衡机制引入评估体系，推动了可操控性与可靠性研究的前沿进展。

当前挑战

多模态评估领域长期面临单一指标无法全面衡量生成质量的困境，Multi-Crit通过定义完整性、视觉 grounding、事实性等十项动态准则，试图解决开放场景中质量维度交织的复杂评判问题。在数据构建过程中，研究团队需克服多源提示对齐、跨模型响应质量分层、以及人类标注者对于冲突案例的一致性标注等挑战，最终通过结构化流水线实现了782组准则级冲突案例的精准采集，为量化评估模型的权衡敏感度与冲突解析能力奠定基础。

常用场景

经典使用场景

在人工智能领域，多模态模型的评估一直是研究热点。Multi-Crit数据集通过提供开放内容生成和可验证推理任务两大场景，系统性地评估多模态模型在遵循多样化、细粒度标准方面的能力。该数据集包含来自8个评估源的425个多模态提示，以及11个现成LMM生成的响应对，为研究者提供了检验模型在完整性、视觉基础、事实性等维度表现的标准化测试平台。

衍生相关工作

基于该数据集的研究已催生多个重要方向的工作。研究者开发了新型的多标准对齐训练方法，提升了模型在冲突标准下的决策能力。在模型架构方面，出现了专门处理标准间权衡的注意力机制设计。该数据集还促进了多模态评判系统的标准化评估流程建立，为后续研究如标准感知的强化学习、多目标优化等提供了基础实验平台。

数据集最近研究