lmms-lab/POPE
收藏Hugging Face2024-05-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/POPE
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是POPE的格式化版本,用于`lmms-eval`管道中以一键评估大型多模态模型。它包含多个特征,如id、question_id、question、answer、image_source、image和category,并分为不同的分割(如adversarial、popular、random和test)。该数据集主要用于评估大型视觉语言模型中的对象幻觉问题。
该数据集是POPE的格式化版本,用于`lmms-eval`管道中以一键评估大型多模态模型。它包含多个特征,如id、question_id、question、answer、image_source、image和category,并分为不同的分割(如adversarial、popular、random和test)。该数据集主要用于评估大型视觉语言模型中的对象幻觉问题。
提供机构:
lmms-lab
原始信息汇总
数据集概述
数据集配置
Full 配置
- 特征:
- id: 字符串
- question_id: 字符串
- question: 字符串
- answer: 字符串
- image_source: 字符串
- image: 图像
- category: 字符串
- 分割:
- adversarial: 490408158.0 字节, 3000 个样本
- popular: 490397000.0 字节, 3000 个样本
- random: 490394976.0 字节, 3000 个样本
- 下载大小: 255022914 字节
- 数据集大小: 1471200134.0 字节
default 配置
- 特征:
- id: 字符串
- question_id: 字符串
- question: 字符串
- answer: 字符串
- image_source: 字符串
- image: 图像
- category: 字符串
- 分割:
- test: 1471200135.0 字节, 9000 个样本
- 下载大小: 255022914 字节
- 数据集大小: 1471200135.0 字节
数据文件
Full 配置
- 数据文件:
- adversarial: Full/adversarial-*
- popular: Full/popular-*
- random: Full/random-*
default 配置
- 数据文件:
- test: data/test-*
搜集汇总
数据集介绍

构建方式
POPE数据集的构建是基于大规模的多模态交互数据,旨在评价大型多模态模型的对象幻觉能力。该数据集由多个子集组成,包括对抗性、流行和随机三种类型,每个子集包含3000个示例。数据集的结构包括问题、答案、图像源、图像以及类别等字段,为模型评估提供了丰富的多模态信息。
特点
该数据集的特点在于其多样化的问题和答案组合,以及包含的图像数据,使得数据集在多模态交互的评估中具有较高的实用价值。此外,数据集的构建考虑了对抗性场景,有助于评估模型在复杂环境下的性能。数据集的规模适中,便于快速下载和部署,适用于大型多模态模型的一键评估。
使用方法
使用该数据集时,用户可以根据不同的评估需求选择相应的子集。数据集可以通过HuggingFace的lmms-lab/POPE路径进行下载,并且支持一键加载。用户需要根据lmms-eval流程进行操作,以实现对多模态模型的综合评估。数据集提供了详细的文档和示例代码,便于用户快速上手。
背景与挑战
背景概述
POPE数据集,全称为Large-scale Multi-modality Models Evaluation Suite,是在2023年由Li Yifan等研究人员提出的。该数据集主要针对大规模多模态模型的评估,旨在加速大型多模态模型(LMMs)的发展。POPE数据集的创建,是为了提供一个统一的评估框架,用于评估对象幻觉在大规模视觉语言模型中的表现。该数据集的影响力体现在其为多模态模型研究提供了一个全新的视角,并在学术界引起了广泛关注。
当前挑战
在构建POPE数据集的过程中,研究人员面临了多个挑战。首先,数据集需要涵盖多样化的视觉和语言信息,以确保能够全面评估多模态模型的能力。其次,构建过程中如何保证数据的质量和一致性,以及如何设计有效的评估指标,都是需要解决的难题。此外,数据集在解决领域问题,如对象幻觉评估时,面临的挑战包括如何准确捕捉和量化模型在视觉与语言交互中的幻觉现象。
常用场景
经典使用场景
在大型多模态模型评估领域,lmms-lab/POPE数据集的应用尤为关键。该数据集被广泛用于对模型进行图像和文本结合的问答能力测试,其通过提供具有挑战性的图像-问题-答案三元组,使得模型能够在对抗性、流行度以及随机性三种不同的数据分割下进行评估,从而精确测量模型在多模态交互任务中的表现。
解决学术问题
该数据集解决了学术研究中如何全面评估大型多模态模型性能的问题。通过包含精心设计的图像和与之相关的文本问题,POPE数据集使得研究者能够识别和定位模型在视觉理解和语言处理方面的缺陷,进而推动模型优化和算法改进。
衍生相关工作
基于lmms-lab/POPE数据集,学术界衍生出了一系列相关研究工作。例如,研究者们利用该数据集开展了对大型视觉语言模型中对象幻觉现象的评估研究,这些工作不仅推动了多模态模型评估技术的发展,也为模型的可解释性和可靠性提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



