OLIVE

github2024-03-27 更新2024-05-31 收录

下载链接：

https://github.com/jq-zh/olive-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

The OLIVE dataset, containing 9,450 images, 30,120 unique instructions, and 47,250 responses, simulates in-the-wild user queries to vision-language models.

该OLIVE数据集共包含9450张图像、30120条独特指令与47250条回复，模拟了真实野外场景下面向视觉语言模型的用户查询。

创建时间：

2024-03-21

原始信息汇总

数据集概述

名称: OLIVE

描述: OLIVE是一个多样化的多模态数据集，旨在模拟视觉语言模型（VLMs）在真实世界场景中面临的多样化用户查询。该数据集支持VLMs的训练和评估，使其更接近实际使用情况。

内容:

图像: 9,450张，随机采样自LAION-Aesthetics。
指令: 30,120条独特指令。
响应: 47,250个响应。

结构:

每张图像对应五个指令-响应对。
每个对具有独特的响应，但指令可能在不同对之间重复使用。
指令-响应对分为四个类别：视觉识别、创意写作、知识基础和详细描述。

数据分割:

训练: 6,750对。
验证: 6,750对。
测试: 剩余对。

下载链接:

图像: 训练、验证、测试。
注释: 训练、验证、测试_v1.0、测试_v2.0。

注释格式: json [ { "image": "图像文件名", "category": "类别", "instruction": "任务指令", "output": "响应", "id": "唯一标识符" } ]

性能:

报告了不同模型在测试_v1.0分割上的零样本性能，使用CIDEr作为评估指标。

引用: latex @inproceedings{tiong2024we, title={What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases}, author={Tiong, Anthony Meng Huat and Zhao, Junqi and Li, Boyang and Li, Junnan and Hoi, Steven CH and Xiong, Caiming}, booktitle={Proceedings of the 2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)}, year={2024} }

搜集汇总

数据集介绍

构建方式

OLIVE数据集构建过程充分考虑了视觉语言模型（VLMs）在现实场景中面临的多样性和复杂性。数据集包含9,450张图像，这些图像从LAION-Aesthetics中随机采样，确保了视觉内容的广泛覆盖。每张图像对应五个指令-响应对，指令和响应通过ChatGPT生成，并经过人工精修，以确保其质量和多样性。指令-响应对分为视觉识别、创意写作、知识基础和详细描述四类，涵盖了多种任务类型。数据集被划分为训练集、验证集和测试集，分别包含6,750对指令-响应，确保了模型训练和评估的全面性。

特点

OLIVE数据集以其高度多样性和人工校正的多模态内容著称，旨在模拟视觉语言模型在真实世界中的使用场景。数据集包含30,120条独特指令和47,250条响应，每张图像对应五个指令-响应对，且每个响应均为唯一。指令-响应对的多样性体现在其涵盖的四大类别：视觉识别、创意写作、知识基础和详细描述。此外，数据集的划分方式确保了训练、验证和测试的平衡性，测试集进一步分为Test_v1.0和Test_v2.0，后者为前者的扩展，提供了更广泛的评估基准。

使用方法

OLIVE数据集的使用方法简洁明了，用户可通过提供的链接下载图像和标注文件。标注文件以JSON格式存储，包含图像文件名、指令类别、任务指令、响应内容以及唯一标识符等信息。用户可根据需求选择下载训练集、验证集或测试集，测试集分为Test_v1.0和Test_v2.0，后者包含更多数据，适合更全面的模型评估。数据集支持视觉语言模型的训练和评估，特别是在零样本学习场景下，用户可通过CIDEr等指标评估模型性能。

背景与挑战

背景概述

OLIVE数据集由NAACL'24会议上的一篇论文提出，旨在模拟视觉语言模型（VLMs）在真实场景中面临的多样性和复杂性。该数据集由9,450张图像、30,120条独特指令和47,250条响应组成，图像来源于LAION-Aesthetics，指令和响应则通过ChatGPT生成并经过人工修正。OLIVE的创建时间为2024年，主要研究人员包括Anthony Meng Huat Tiong、Junqi Zhao等。该数据集的核心研究问题在于如何更准确地评估VLMs在实际应用中的表现，特别是在视觉识别、创意写作、知识基础和详细描述等任务中的表现。OLIVE的推出为VLMs的训练和评估提供了更为贴近实际应用场景的数据支持，推动了该领域的研究进展。

当前挑战

OLIVE数据集在构建和应用过程中面临多重挑战。首先，数据集旨在解决视觉语言模型在真实场景中的多样性和复杂性，如何确保指令和响应的多样性与实际应用场景的高度契合是一个关键问题。其次，数据集的构建过程中，尽管使用了ChatGPT生成指令和响应，但仍需通过人工修正以确保数据的准确性和质量，这一过程耗时且资源密集。此外，数据集的评估标准也面临挑战，如何设计合理的评估指标以全面衡量模型在不同任务中的表现，仍需进一步探索。最后，数据集的规模较大，如何在保证数据质量的同时高效地进行数据处理和模型训练，也是研究者需要克服的技术难题。

常用场景

经典使用场景

OLIVE数据集在视觉-语言模型（VLMs）的训练与评估中展现了其独特的价值。通过模拟真实世界中的多样化用户查询，该数据集为研究者提供了一个高度逼真的测试环境，涵盖了视觉识别、创意写作、知识问答和详细描述等多种任务类型。这种多样性使得OLIVE成为评估模型在开放世界场景下表现的首选工具。

实际应用

在实际应用中，OLIVE数据集被广泛用于优化和测试视觉-语言模型在开放世界场景下的表现。例如，在智能助手、图像搜索和内容生成等领域，该数据集帮助开发者更好地理解模型在处理复杂、多样化用户查询时的能力，从而提升产品的用户体验和功能实用性。

衍生相关工作

OLIVE数据集的发布催生了一系列相关研究，特别是在视觉-语言模型的评估和优化领域。例如，基于OLIVE的研究工作深入探讨了模型在不同任务类型下的表现差异，并提出了新的评估指标和方法。这些研究不仅推动了视觉-语言模型的发展，也为未来的多模态研究提供了重要的参考和启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集