lmms-lab/POPE|多模态模型数据集|视觉语言模型数据集

hugging_face2024-05-23 更新2024-06-22 收录

多模态模型

视觉语言模型

下载链接：

https://hf-mirror.com/datasets/lmms-lab/POPE

下载链接

链接失效反馈

资源简介：

该数据集是POPE的格式化版本，用于`lmms-eval`管道中以一键评估大型多模态模型。它包含多个特征，如id、question_id、question、answer、image_source、image和category，并分为不同的分割（如adversarial、popular、random和test）。该数据集主要用于评估大型视觉语言模型中的对象幻觉问题。

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集配置

Full 配置

特征:
- id: 字符串
- question_id: 字符串
- question: 字符串
- answer: 字符串
- image_source: 字符串
- image: 图像
- category: 字符串
分割:
- adversarial: 490408158.0 字节, 3000 个样本
- popular: 490397000.0 字节, 3000 个样本
- random: 490394976.0 字节, 3000 个样本
下载大小: 255022914 字节
数据集大小: 1471200134.0 字节

default 配置

特征:
- id: 字符串
- question_id: 字符串
- question: 字符串
- answer: 字符串
- image_source: 字符串
- image: 图像
- category: 字符串
分割:
- test: 1471200135.0 字节, 9000 个样本
下载大小: 255022914 字节
数据集大小: 1471200135.0 字节

数据文件

Full 配置

数据文件:
- adversarial: Full/adversarial-*
- popular: Full/popular-*
- random: Full/random-*

default 配置

数据文件:
- test: data/test-*

AI搜集汇总

数据集介绍

构建方式

POPE数据集的构建是基于大规模的多模态交互数据，旨在评价大型多模态模型的对象幻觉能力。该数据集由多个子集组成，包括对抗性、流行和随机三种类型，每个子集包含3000个示例。数据集的结构包括问题、答案、图像源、图像以及类别等字段，为模型评估提供了丰富的多模态信息。

特点

该数据集的特点在于其多样化的问题和答案组合，以及包含的图像数据，使得数据集在多模态交互的评估中具有较高的实用价值。此外，数据集的构建考虑了对抗性场景，有助于评估模型在复杂环境下的性能。数据集的规模适中，便于快速下载和部署，适用于大型多模态模型的一键评估。

使用方法

使用该数据集时，用户可以根据不同的评估需求选择相应的子集。数据集可以通过HuggingFace的lmms-lab/POPE路径进行下载，并且支持一键加载。用户需要根据lmms-eval流程进行操作，以实现对多模态模型的综合评估。数据集提供了详细的文档和示例代码，便于用户快速上手。

背景与挑战

背景概述

POPE数据集，全称为Large-scale Multi-modality Models Evaluation Suite，是在2023年由Li Yifan等研究人员提出的。该数据集主要针对大规模多模态模型的评估，旨在加速大型多模态模型（LMMs）的发展。POPE数据集的创建，是为了提供一个统一的评估框架，用于评估对象幻觉在大规模视觉语言模型中的表现。该数据集的影响力体现在其为多模态模型研究提供了一个全新的视角，并在学术界引起了广泛关注。

当前挑战

在构建POPE数据集的过程中，研究人员面临了多个挑战。首先，数据集需要涵盖多样化的视觉和语言信息，以确保能够全面评估多模态模型的能力。其次，构建过程中如何保证数据的质量和一致性，以及如何设计有效的评估指标，都是需要解决的难题。此外，数据集在解决领域问题，如对象幻觉评估时，面临的挑战包括如何准确捕捉和量化模型在视觉与语言交互中的幻觉现象。

常用场景

经典使用场景

在大型多模态模型评估领域，lmms-lab/POPE数据集的应用尤为关键。该数据集被广泛用于对模型进行图像和文本结合的问答能力测试，其通过提供具有挑战性的图像-问题-答案三元组，使得模型能够在对抗性、流行度以及随机性三种不同的数据分割下进行评估，从而精确测量模型在多模态交互任务中的表现。

解决学术问题

该数据集解决了学术研究中如何全面评估大型多模态模型性能的问题。通过包含精心设计的图像和与之相关的文本问题，POPE数据集使得研究者能够识别和定位模型在视觉理解和语言处理方面的缺陷，进而推动模型优化和算法改进。

衍生相关工作

基于lmms-lab/POPE数据集，学术界衍生出了一系列相关研究工作。例如，研究者们利用该数据集开展了对大型视觉语言模型中对象幻觉现象的评估研究，这些工作不仅推动了多模态模型评估技术的发展，也为模型的可解释性和可靠性提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

rpi_test

该数据集为HuggingFace LeRobot格式机器人数据集。

huggingface 收录

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集，用于光学与合成孔径雷达（SAR）融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建，包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别，并使用公开的光学和SAR数据，包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战，该研究提出了一种半监督的光学辅助标注策略，利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性，为多源融合目标检测任务提供大规模、高质量、标准化的数据集，并推动相关研究的发展。

arXiv 收录