CODIS

Name: CODIS
Creator: 清华大学计算机科学与技术系
Published: 2024-03-15 19:19:30
License: 暂无描述

arXiv2024-03-15 更新2024-06-21 收录

下载链接：

https://thunlp-mt.github.io/CODIS

下载链接

链接失效反馈

官方服务：

资源简介：

CODIS数据集由清华大学计算机科学与技术系创建，旨在评估多模态大型语言模型在依赖上下文的视觉理解能力。该数据集包含377张图片，每张图片都具有内在的模糊性，需要额外的自由格式文本上下文才能准确解读。数据集设计强调了上下文在视觉理解中的重要性，特别是在解决图像模糊性方面。CODIS数据集的应用领域包括视觉问答和视觉推理，旨在通过上下文依赖的方式提高模型的视觉理解能力，解决现有模型在处理视觉信息时对上下文理解的不足。

The CODIS dataset was developed by the Department of Computer Science and Technology, Tsinghua University, with the goal of evaluating the context-dependent visual understanding abilities of multimodal large language models. This dataset comprises 377 images, each of which possesses inherent ambiguity and demands additional free-form textual context for accurate interpretation. The design of the CODIS dataset highlights the critical role of context in visual understanding, particularly in resolving image ambiguity. Application scenarios of the CODIS dataset cover visual question answering and visual reasoning; it aims to improve the visual understanding capabilities of models through context-dependent methods, addressing the insufficiency of existing models in contextual comprehension when processing visual information.

提供机构：

清华大学计算机科学与技术系

创建时间：

2024-02-21

搜集汇总

数据集介绍

构建方式

在构建CODIS数据集时，研究团队遵循了严谨的流程以确保数据质量与多样性。首先，通过人工筛选从公开数据集ShareGPT4V及互联网中收集了377幅具有内在视觉模糊性的真实场景图像，这些图像在缺乏外部语境时无法被准确解读。随后，针对每幅图像，人工撰写了针对其模糊部分的问题，并为每个图像-问题对精心设计了两段细微差异的自由文本语境，这两段语境分别导向对图像的不同解释及相应答案。为确保数据的客观性与可评估性，答案设计为相对客观的封闭或开放形式。最终，经过五名标注者的交叉验证与修订，保留了216幅图像及对应的706个查询，涵盖了位置与方向、时间信息、文化背景、物体属性及人际关系五大类别，确保了数据集在场景与语境类型上的广泛覆盖。

使用方法

使用CODIS数据集进行评估时，通常遵循特定的指令设计与评估流程。评估时，模型会分别接收包含同一图像和问题、但语境不同的两个查询，并生成相应的输出。评估采用配对准确率和查询准确率两项指标，其中配对准确率要求模型对同一图像-问题对的两个查询均给出正确答案，更能反映模型对语境差异的敏感性与利用能力。为便于自动化评估，答案通常设计为相对客观的封闭或开放形式。研究已证明，GPT-4作为自动评估器与人工评估具有高度一致性，可用于大规模评估。该数据集主要用于系统性地评测多模态大语言模型整合文本语境以增强视觉理解的能力，揭示其在语境信息提取与视觉特征关联方面的不足。

背景与挑战

背景概述

随着多模态大语言模型在视觉与语言融合任务中展现出卓越潜力，对其能力进行全面评估的需求日益凸显。然而，现有基准测试大多忽视了图像理解往往依赖于更广泛上下文信息这一关键现实。为此，清华大学联合多家研究机构于2024年推出了CODIS基准测试，旨在系统评估模型如何利用自由文本提供的上下文信息来增强视觉理解能力。该数据集通过精心设计的图像-问题-上下文三元组，聚焦于解决视觉歧义消解这一核心科学问题，为多模态模型在复杂现实场景中的可靠性评估提供了重要工具。

当前挑战

CODIS基准测试所针对的领域挑战在于多模态大语言模型在上下文依赖的视觉理解任务中表现显著落后于人类水平，模型难以有效提取并融合文本上下文与视觉信息以消解图像歧义。在数据集构建过程中，研究团队面临双重挑战：一是需要人工收集具有天然歧义性的图像，并确保这些歧义只能通过外部上下文信息才能解决；二是必须为每个图像-问题对设计两套细微差异却导致不同答案的上下文文本，同时保持问题对歧义性的精准指向，这对数据标注的严谨性与逻辑一致性提出了极高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，CODIS数据集被广泛用于检验多模态大语言模型在上下文依赖视觉理解方面的能力。该数据集通过精心设计的图像-问题-上下文三元组，要求模型结合自由文本提供的背景信息来消除图像中的歧义。例如，给定一张楼梯图像及关于植被位置的描述，模型需推断拍摄者是在上行还是下行。这种评估方式已成为衡量模型是否具备人类般情境推理能力的重要基准，推动了模型在复杂视觉理解任务上的性能优化。

解决学术问题

CODIS数据集主要解决了多模态大语言模型在上下文感知视觉理解方面的评估缺失问题。传统基准测试往往忽略外部文本语境对图像解读的关键影响，导致模型在真实场景中表现受限。该数据集通过构建包含位置朝向、时间信息、文化背景、物体属性和人际关系的五类语境，系统性地揭示了模型在提取并融合跨模态信息时的缺陷。其意义在于首次建立了针对语境依赖视觉消歧的标准化评估框架，为提升模型的场景适应性和推理可靠性提供了明确的研究方向。

实际应用

在实际应用层面，CODIS数据集所针对的语境依赖视觉理解能力对智能辅助系统、跨文化交互平台和自动驾驶等领域具有重要价值。例如，在医疗影像分析中，结合患者病史文本信息可更准确判断病灶性质；在国际化导航系统中，理解当地交通标志需融合地域文化背景。该数据集通过模拟真实世界中图像与文本语境交织的复杂场景，为开发能适应动态环境、减少误判的可靠多模态系统提供了关键的测试基准，助力人工智能在开放环境下的稳健部署。

数据集最近研究