CMM

Hugging Face2024-10-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DAMO-NLP-SG/CMM

下载链接

链接失效反馈

官方服务：

资源简介：

CMM数据集是一个精心策划的基准，旨在评估大型多模态模型（LMMs）中的幻觉脆弱性。它包含2,400个探测问题，分布在从WebVid、AudioCaps、Auto-ACD和YouTube精心挑选的1,200个视频/音频/视频-音频样本中。每个样本都配有两个问题，分别针对实际存在和非存在的物体或事件，确保对感知准确性和幻觉抵抗性的全面评估。数据集主要用于LMMs的研究，面向计算机视觉、自然语言处理、音频处理、多模态学习、机器学习和人工智能领域的研究人员和爱好者。

创建时间：

2024-10-14

原始信息汇总

The Curse of Multi-Modalities (CMM) Dataset Card

数据集详情

数据集类型: CMM 是一个精心设计的基准数据集，旨在评估大型多模态模型（LMMs）中的幻觉脆弱性。它旨在严格测试 LMMs 在视觉、音频和语言模态之间的能力，重点关注由模态间虚假相关性和单模态过度依赖引起的幻觉。

数据集详情: CMM 引入了 2,400 个探测问题，涵盖了从 WebVid、AudioCaps、Auto-ACD 和 YouTube 中精心挑选的 1,200 个视频/音频/视频-音频样本。每个样本都配有两个问题，分别针对真实存在和不存在的对象或事件，以确保对感知准确性和幻觉抵抗性的全面评估。

数据说明: 请下载原始视频文件 ./reorg_raw_files.zip，解压后的结构应为： bash reorg_raw_files ├── inter-modality_spurious_correlation | ├── audio-language/ | ├── visual-language/ | ├── audio-language/ ├── over-reliance_unimodal_priors | ├── overrely_audio_ignore_visual/ | ├── overrely_visual_ignore_audio/ | ├── overrely_language_ignore_visual/

评估说明: 有关详细的评估说明，请参考我们的 GitHub 仓库：https://github.com/DAMO-NLP-SG/CMM/。

数据集发布日期: CMM 于 2024 年 10 月发布。

更多信息: 有关更多信息，请访问：https://github.com/DAMO-NLP-SG/CMM/。

问题反馈: 如有问题或评论，请发送至：https://github.com/DAMO-NLP-SG/CMM/issues。

引用

如果您发现 CMM 对您的研究和应用有帮助，请使用以下 BibTeX 引用： bibtex @article{leng2024curse, title={The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio}, author={Sicong Leng and Yun Xing and Zesen Cheng and Yang Zhou and Hang Zhang and Xin Li and Deli Zhao and Shijian Lu and Chunyan Miao and Lidong Bing}, journal={arXiv}, year={2024}, url={https://arxiv.org/abs/2410.12787} }

预期用途

主要用途: CMM 主要用于 LMMs 的研究。

主要用户: 该数据集的主要用户是计算机视觉、自然语言处理、音频处理、多模态学习、机器学习和人工智能领域的研究人员和爱好者。

搜集汇总

数据集介绍

构建方式

CMM数据集是一个精心设计的基准测试集，旨在评估大型多模态模型（LMMs）在视觉、音频和语言模态中的幻觉脆弱性。该数据集从WebVid、AudioCaps、Auto-ACD和YouTube中精选了1,200个视频/音频/视频-音频样本，并为每个样本配对了两个问题，分别针对真实存在和不存在的对象或事件，以确保全面评估模型的感知准确性和幻觉抵抗能力。

使用方法

使用CMM数据集时，用户需下载并解压./reorg_raw_files.zip文件，按照指定的目录结构组织数据。数据集的使用主要面向研究人员和爱好者，特别是在计算机视觉、自然语言处理、音频处理、多模态学习、机器学习和人工智能领域。详细的评估指南可参考GitHub仓库中的说明，以确保正确使用和评估模型性能。

背景与挑战

背景概述

CMM（The Curse of Multi-Modalities）数据集由DAMO-NLP-SG团队于2024年10月发布，旨在评估大型多模态模型（LMMs）在视觉、音频和语言模态中的幻觉问题。该数据集通过精心设计的2,400个探测问题，覆盖了1,200个从WebVid、AudioCaps、Auto-ACD和YouTube中精选的视频/音频/视频-音频样本。CMM的核心研究问题在于揭示多模态模型在跨模态虚假关联和单模态过度依赖中的幻觉现象，为多模态学习领域提供了重要的评估基准。该数据集的发布推动了多模态模型在感知准确性和抗幻觉能力方面的研究，具有广泛的影响力。

当前挑战

CMM数据集在构建和应用过程中面临多重挑战。首先，多模态数据的融合与对齐问题使得模型在处理跨模态信息时容易产生虚假关联，导致幻觉现象。其次，单模态过度依赖问题使得模型在缺乏充分信息的情况下，倾向于依赖单一模态的先验知识，从而影响整体判断。在数据构建过程中，如何确保样本的多样性和代表性，以及如何设计有效的探测问题以全面评估模型的幻觉倾向，也是构建团队面临的主要挑战。此外，多模态数据的存储和处理复杂性增加了数据集的构建和应用的难度。

常用场景

经典使用场景

CMM数据集主要用于评估大型多模态模型（LMMs）在视觉、音频和语言模态中的幻觉问题。通过精心设计的2400个探测问题，CMM能够全面测试模型在跨模态虚假关联和单模态过度依赖情况下的表现，为研究者提供了一个标准化的评估平台。

解决学术问题

CMM数据集解决了多模态模型在跨模态交互中出现的幻觉问题，特别是由于虚假关联和单模态过度依赖导致的错误。通过提供多样化的视频、音频和文本样本，CMM帮助研究者深入理解模型在多模态环境中的局限性，并推动更鲁棒的模型设计。

实际应用

在实际应用中，CMM数据集被广泛用于开发和测试多模态模型，特别是在需要高精度感知和低幻觉率的场景中，如自动驾驶、智能助手和多媒体内容分析。通过使用CMM，开发者能够更好地评估和改进模型在实际环境中的表现。

数据集最近研究