CMM
收藏The Curse of Multi-Modalities (CMM) Dataset Card
数据集详情
数据集类型: CMM 是一个精心设计的基准数据集,旨在评估大型多模态模型(LMMs)中的幻觉脆弱性。它旨在严格测试 LMMs 在视觉、音频和语言模态之间的能力,重点关注由模态间虚假相关性和单模态过度依赖引起的幻觉。
数据集详情: CMM 引入了 2,400 个探测问题,涵盖了从 WebVid、AudioCaps、Auto-ACD 和 YouTube 中精心挑选的 1,200 个视频/音频/视频-音频样本。每个样本都配有两个问题,分别针对真实存在和不存在的对象或事件,以确保对感知准确性和幻觉抵抗性的全面评估。
数据说明: 请下载原始视频文件 ./reorg_raw_files.zip,解压后的结构应为: bash reorg_raw_files ├── inter-modality_spurious_correlation | ├── audio-language/ | ├── visual-language/ | ├── audio-language/ ├── over-reliance_unimodal_priors | ├── overrely_audio_ignore_visual/ | ├── overrely_visual_ignore_audio/ | ├── overrely_language_ignore_visual/
评估说明: 有关详细的评估说明,请参考我们的 GitHub 仓库:https://github.com/DAMO-NLP-SG/CMM/。
数据集发布日期: CMM 于 2024 年 10 月发布。
更多信息: 有关更多信息,请访问:https://github.com/DAMO-NLP-SG/CMM/。
问题反馈: 如有问题或评论,请发送至:https://github.com/DAMO-NLP-SG/CMM/issues。
引用
如果您发现 CMM 对您的研究和应用有帮助,请使用以下 BibTeX 引用: bibtex @article{leng2024curse, title={The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio}, author={Sicong Leng and Yun Xing and Zesen Cheng and Yang Zhou and Hang Zhang and Xin Li and Deli Zhao and Shijian Lu and Chunyan Miao and Lidong Bing}, journal={arXiv}, year={2024}, url={https://arxiv.org/abs/2410.12787} }
预期用途
主要用途: CMM 主要用于 LMMs 的研究。
主要用户: 该数据集的主要用户是计算机视觉、自然语言处理、音频处理、多模态学习、机器学习和人工智能领域的研究人员和爱好者。




