ImageNetVC

github2023-12-09 更新2024-05-31 收录

下载链接：

https://github.com/hemingkx/ImageNetVC

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNetVC是一个专为零样本和小样本视觉常识评估设计的人工标注数据集，涵盖1000个ImageNet类别。该数据集用于基准测试单模态大型语言模型（LLMs）和视觉增强语言模型（VaLMs）的基本视觉常识知识，并分析影响大规模模型视觉常识知识的因素，为开发富含视觉常识知识的语言模型提供见解。

ImageNetVC is a manually annotated dataset designed for zero-shot and few-shot visual commonsense evaluation, covering 1000 ImageNet categories. This dataset is utilized to benchmark the fundamental visual commonsense knowledge of unimodal Large Language Models (LLMs) and Vision-augmented Language Models (VaLMs), analyze the factors affecting the visual commonsense knowledge of large-scale models, and provide insights for the development of language models rich in visual commonsense knowledge.

创建时间：

2023-05-23

原始信息汇总

数据集概述

名称：ImageNetVC

目的：用于零样本和少样本视觉常识评估，涵盖1000个ImageNet类别。

用途：评估大型语言模型（LLMs）及其视觉增强版本（VaLMs）的视觉常识知识。

数据集详细信息

设计：由人类标注，专门设计用于评估视觉常识。
评估结果：
- Falcon和LLaMA在所有四个LLM模型家族中表现出色，特别是在颜色和组件子任务上。
- 上下文学习（ICL）不仅提高了LLMs的视觉常识性能，还减少了不同提示间的差异。
- VaLMs提升了其LLM基础的视觉常识能力，尽管在形状子集上的性能提升较小。
- VaLMs的ICL能力应进一步重视。

使用方法

LLM模型：进入LLM文件夹，安装环境后运行ImageNetVC.py获取实验结果。
VaLM模型：进入VaLM/BLIP-2文件夹，按照指引安装环境和下载模型，代码位于ImageNetVC.py。

引用信息

@inproceedings{xia-etal-2023-imagenetvc, title = "ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories", author = "Xia, Heming and Dong, Qingxiu and Li, Lei and Xu, Jingjing and Liu, Tianyu and Qin, Ziwei and Sui, Zhifang", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-emnlp.133", pages = "2009--2026", }

搜集汇总

数据集介绍

构建方式

ImageNetVC数据集的构建基于1000个ImageNet类别，旨在评估零样本和少样本视觉常识知识。该数据集通过人工标注的方式，精心设计了涵盖颜色、形状、组成部分等多个维度的视觉常识问题。研究人员利用这些标注数据，对单模态大语言模型（LLMs）和视觉增强语言模型（VaLMs）的视觉常识能力进行了系统性评估。数据集的构建不仅考虑了问题的多样性，还通过严格的标注流程确保了数据的质量和可靠性。

使用方法

ImageNetVC数据集的使用方法分为两个主要部分：针对大语言模型（LLMs）和视觉增强语言模型（VaLMs）的评估。对于LLMs，用户可以通过运行`LLM`文件夹中的`ImageNetVC.py`脚本，获取模型在数据集上的实验结果。对于VaLMs，用户需先安装BLIP-2环境并下载相关模型，随后运行`VaLM/BLIP-2`文件夹中的`ImageNetVC.py`脚本进行评估。数据集的使用流程清晰，代码结构简洁，便于研究人员快速上手并进行实验复现。

背景与挑战

背景概述

ImageNetVC数据集由Heming Xia等人于2023年提出，旨在评估大规模语言模型（LLMs）及其视觉增强版本（VaLMs）在零样本和少样本场景下的视觉常识理解能力。该数据集基于ImageNet的1000个类别，通过人工标注构建，专门用于测试模型在颜色、形状、组成部分等视觉常识任务上的表现。ImageNetVC的提出填补了当前LLMs和VaLMs在视觉知识掌握方面的评估空白，为语言模型与视觉知识的深度融合提供了重要的基准工具。该数据集的研究成果已在EMNLP 2023会议上发表，对推动视觉增强语言模型的发展具有重要意义。

当前挑战

ImageNetVC数据集的核心挑战在于如何准确评估模型在零样本和少样本场景下的视觉常识理解能力。首先，视觉常识任务本身具有高度的复杂性和多样性，模型需要理解颜色、形状、组成部分等多维度的视觉信息，这对模型的泛化能力提出了极高要求。其次，数据集的构建过程中，人工标注的准确性和一致性是关键挑战，尤其是在涉及主观性较强的视觉常识任务时，如何确保标注的客观性和可靠性成为一大难题。此外，如何设计有效的评估框架，以全面衡量不同模型在视觉常识任务上的表现，也是该数据集面临的重要挑战。

常用场景

经典使用场景

ImageNetVC数据集在视觉常识评估领域具有重要应用，特别是在零样本和少样本学习场景下。通过该数据集，研究人员能够评估大型语言模型（LLMs）及其视觉增强版本（VaLMs）在1000个ImageNet类别上的视觉常识理解能力。数据集的设计使得模型能够在缺乏大量标注数据的情况下，依然能够展现出对颜色、形状、组件等视觉属性的深刻理解。

解决学术问题

ImageNetVC数据集解决了当前大型语言模型在视觉常识知识掌握上的评估难题。通过提供跨类别的视觉常识任务，该数据集帮助研究人员深入分析模型在零样本和少样本学习中的表现，揭示了模型在视觉知识理解上的局限性。这一研究为开发具备更强视觉常识能力的语言模型提供了重要参考，推动了多模态学习领域的发展。

实际应用

在实际应用中，ImageNetVC数据集为智能助手、自动驾驶和图像理解系统等领域的模型优化提供了重要支持。通过评估模型在视觉常识任务上的表现，开发者能够识别并改进模型在真实场景中的不足，从而提升系统的鲁棒性和实用性。例如，在自动驾驶中，模型对交通标志颜色和形状的理解能力直接影响其决策准确性。

数据集最近研究