MC-Bench

Name: MC-Bench
Creator: 浙江大学认知计算与学习实验室
Published: 2024-10-16 15:52:57
License: 暂无描述

arXiv2024-10-16 更新2024-10-19 收录

下载链接：

https://xuyunqiu.github.io/MC-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

MC-Bench是由浙江大学认知计算与学习实验室创建的多上下文视觉定位基准数据集，旨在评估多模态大语言模型（MLLMs）在多图像场景中的视觉定位能力。该数据集包含2000个高质量、手工标注的样本，涵盖了多种领域和学科。数据集内容包括成对的图像、实例级别的标注和相应的文本提示，文本提示分为三种风格：指称、比较和推理。数据集的创建过程包括从多个数据源收集多样化的图像，并精心组织和标注。MC-Bench的应用领域主要集中在多图像场景下的实例级视觉定位任务，旨在解决现有MLLMs在复杂文本描述和跨图像上下文理解方面的不足。

MC-Bench is a multi-context visual grounding benchmark dataset developed by the Cognitive Computing and Learning Lab at Zhejiang University, which is designed to evaluate the visual grounding capabilities of multimodal large language models (MLLMs) in multi-image scenarios. It comprises 2000 high-quality, manually annotated samples spanning multiple domains and disciplines. The dataset includes paired images, instance-level annotations, and corresponding text prompts, which are categorized into three styles: referential, comparative, and inferential. The construction of MC-Bench involves collecting diverse images from multiple data sources, followed by rigorous organization and annotation. Its primary application focuses on instance-level visual grounding tasks within multi-image scenarios, aiming to address the shortcomings of existing MLLMs in complex text description and cross-image context comprehension.

提供机构：

浙江大学认知计算与学习实验室

创建时间：

2024-10-16

原始信息汇总

MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs

数据集概述

名称: MC-Bench
类型: 多上下文视觉定位基准
领域: 视觉语言理解
目标: 评估多模态大语言模型（MLLMs）在多图像实例级视觉语言问题上的能力

数据集详情

样本数量: 2,000个高质量手动标注样本
样本组成: 包含实例级标注的图像对和相应的文本提示
文本提示类型:
- 引用型（Referring）
- 比较型（Comparison）
- 推理型（Reasoning）
涵盖技能: 超过10种实用技能，如多跳推理、常识推理、多视图推理、时间理解等

数据集链接

下载地址: Google Drive

作者信息

作者:
- Yunqiu Xu
- Linchao Zhu
- Yi Yang
机构: ReLER Lab, CCAI, Zhejiang University
状态: 提交中

搜集汇总

数据集介绍

构建方式

MC-Bench 数据集的构建过程经过精心设计，旨在评估多模态大语言模型（MLLMs）在多图像场景中的视觉定位能力。该数据集包含了2000个高质量、手工标注的样本，每个样本由一对标注实例级别的图像对和相应的文本提示组成。文本提示分为三种不同风格：指称、比较和推理，涵盖了20种实际应用技能。总体上，数据集从超过10个数据源收集了3345张多样化的图像，并精心组织了2000对图像，手工标注了1514个独特的开放式文本提示，以及超过3202个语言定位的边界框。

特点

MC-Bench 数据集的主要特点在于其多样性和复杂性。首先，数据集包含了来自多个领域和学科的图像，确保了测试环境的广泛性。其次，文本提示的设计不仅涵盖了指称、比较和推理三种风格，还涉及20种实际应用技能，使得模型在处理开放式文本描述时面临更大的挑战。此外，数据集中的图像对和文本提示之间的关联性复杂，要求模型具备跨图像的上下文理解能力。最后，数据集的标注质量高，通过多轮标注和循环审查确保了标注的准确性和一致性。

使用方法

MC-Bench 数据集主要用于评估和提升多模态大语言模型在多图像场景中的视觉定位能力。研究者可以使用该数据集来测试模型在处理复杂文本提示和跨图像上下文时的表现。具体使用方法包括：首先，加载数据集中的图像对和文本提示；其次，设计或选择合适的模型进行视觉定位任务；最后，使用数据集提供的评估指标（如准确率和平均精度）来评估模型的性能。通过对比不同模型的表现，研究者可以识别模型的不足之处，并进行针对性的改进。

背景与挑战

背景概述

MC-Bench 数据集由浙江大学 ReLER 实验室的 Yunqiu Xu、Linchao Zhu 和 Yi Yang 等人创建，旨在评估多模态大语言模型（MLLMs）在多图像场景中的视觉定位能力。该数据集构建于 2024 年，专注于多上下文视觉定位任务，即在多图像场景中基于开放式文本提示定位实例。MC-Bench 包含 2,000 个高质量手动标注样本，涵盖多种文本提示风格和实际技能，旨在推动 MLLMs 在实例级任务中的研究和应用，特别是在多图像上下文中的潜力。

当前挑战

MC-Bench 数据集面临的挑战包括：1) 解决多图像场景中的视觉定位问题，这要求模型能够理解和整合跨图像的上下文信息；2) 构建过程中遇到的挑战，如处理开放式文本描述的灵活性和多样性，以及确保标注的高质量和一致性。此外，现有 MLLMs 在处理复杂文本描述和跨图像上下文时表现不佳，显示出与人类表现之间的显著差距，这为未来的研究提供了改进的方向。

常用场景

经典使用场景

MC-Bench 数据集的经典使用场景主要集中在多图像视觉定位任务中。该数据集通过提供2000个高质量、手动标注的样本，涵盖了实例级别的图像对和相应的文本提示，旨在评估多模态大语言模型（MLLMs）在多图像场景中的视觉定位能力。这些样本包括三种不同风格的文本提示（即指称、比较和推理），覆盖了20种实际技能，使得模型能够在复杂的视觉和语言环境中进行精准的实例定位。

解决学术问题

MC-Bench 数据集解决了多模态大语言模型在处理多图像视觉定位任务时的学术研究问题。传统的视觉定位任务通常局限于单一图像，而MC-Bench通过引入多图像场景和开放式文本提示，扩展了这一领域的研究边界。这不仅提升了模型对复杂文本描述的理解能力，还增强了其在多图像环境中整合和推理信息的能力，从而推动了视觉语言理解技术的发展。

衍生相关工作

MC-Bench 数据集的发布催生了多项相关研究工作，特别是在多模态大语言模型的视觉定位能力评估方面。例如，一些研究通过在MC-Bench上进行基准测试，探索了不同模型在多图像场景中的表现，并提出了改进策略。此外，该数据集还激发了对多模态模型在复杂视觉和语言任务中应用的深入研究，推动了视觉语言理解和多模态学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集