VisCon-100K

Name: VisCon-100K
Creator: 阿布扎比技术创新研究所
Published: 2025-02-14 23:59:33
License: 暂无描述

arXiv2025-02-14 更新2025-02-18 收录

下载链接：

https://huggingface.co/datasets/tiiuae/viscon-100k

下载链接

链接失效反馈

官方服务：

资源简介：

VisCon-100K是由阿布扎比技术创新研究所创建的一个包含10万条样本的视觉语言模型微调数据集。该数据集从OBELICS数据集中精选45K网页文档，利用GPT-4V生成图像上下文字幕，并通过OpenChat 3.5模型生成多样化的问答对。数据集融合了精细的视觉描述和更广泛的上下文信息，显著提升了视觉语言模型的性能。

VisCon-100K is a 100,000-sample fine-tuning dataset for vision-language models, developed by the Technology Innovation Institute in Abu Dhabi. It selects 45K web documents from the OBELICS dataset, uses GPT-4V to generate image context captions, and employs the OpenChat 3.5 model to generate diverse question-answer pairs. By integrating fine-grained visual descriptions and broader contextual information, this dataset significantly enhances the performance of vision-language models.

提供机构：

阿布扎比技术创新研究所

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

VisCon-100K数据集是通过将45K个来自OBELICS数据集的网页文档转化为100K个图像对话样本构建而成的。这一过程涉及使用GPT4V生成图像上下文描述，以及利用OpenChat 3.5模型将这些描述转化为多样化的自由式和多项选择题-答案对。数据集的构建旨在捕捉细粒度的视觉描述和更广泛的上下文信息，从而更有效地微调视觉语言模型（VLMs）。

特点

VisCon-100K数据集的特点在于其丰富的上下文信息，它不仅包含了图像的详细描述，还整合了来自图像周围网页的背景知识。这种上下文丰富性使得数据集在多个基准测试中显著提升了VLMs的性能。此外，数据集采用了“泄漏模态混合”的概念，其中对话样本包含了可以从图像及其上下文描述中回答的问题，这种混合模式优于非泄漏的描述和问答对组合。VisCon-100K数据集还提供了训练有素的上下文描述器，以便于未来研究和开源应用中可扩展的微调数据生成。

使用方法

使用VisCon-100K数据集的方法包括将其作为微调VLMs的额外数据源。数据集可以与现有的微调数据结合使用，以提升模型在视觉问答、图像描述等任务上的性能。此外，数据集中的上下文描述器可以用于生成高质量的上下文描述，从而为研究和应用提供更多可用的微调数据。在微调过程中，用户可以探索不同的数据组合，例如单独使用上下文描述、单独使用问答对，或者结合两者，以及采用泄漏模态混合策略，以找到最佳的模型性能。

背景与挑战

背景概述

在视觉语言模型（VLMs）领域，尽管模型在各类视觉基准测试中表现出色，但往往受到高质量视觉微调数据不足的限制。为了应对这一挑战，VisCon-100K数据集应运而生。该数据集由来自交替图像-文本网页文档的数据构成，由Gokul Karthik Kumar、Iheb Chaabane和Kebin Wu等研究人员在阿布扎比技术创新研究所（TII）创建。VisCon-100K通过将OBELICS数据集中的45K网页文档转化为100K图像对话样本，利用GPT4V生成图像上下文描述，并使用OpenChat 3.5模型将这些描述转化为多样化的自由式和多项选择题-答题对。该数据集的引入显著提升了VLM在多个基准测试中的性能。与仅关注细粒度视觉内容的方法不同，VisCon-100K利用伴随的网页上下文，取得了优异的结果。研究还发现，'漏模态混合'，即对话样本包含可以从图像和其上下文描述中回答的问题，优于非漏模态的描述和问答对组合。VisCon-100k数据集在两种流行的VLM方法中表现出色：仅使用图像描述数据的文本大型语言模型（LLM）与视觉编码器对齐（ShareGPT4V-7b）以及使用交替图像-文本数据的模态预训练LLM（IDEFICS2-8b）。除了发布VisCon-100K数据集外，研究人员还提供了一个在VisCon-100K数据集上训练的上下文描述器，以促进未来研究和开源应用的可扩展微调数据生成。使用相同的管道，但用我们训练的上下文描述器替换GPT-4V，还发布了更大的VisCon-1M数据集。

当前挑战

VisCon-100K数据集面临的挑战包括：1)解决领域问题的挑战，即缺乏高质量的视觉微调数据，以及现有数据集在捕捉更广泛的基于网页的上下文方面的不足；2)构建过程中的挑战，包括如何有效地利用上下文网络数据，避免冗余信息，以及如何确保上下文信息的质量和相关性。为了应对这些挑战，研究人员开发了复杂的数据生成流程，并引入了'漏模态混合'的概念，即对话样本包含可以从图像和其上下文描述中回答的问题，从而促进视觉和文本信息的更好整合。此外，还训练了一个上下文描述器，以减少对付费服务的依赖，并提高数据生成的可扩展性。

常用场景

经典使用场景

VisCon-100K 数据集主要用于视觉语言模型（VLMs）的微调。通过利用图像上下文和网页文本，该数据集为视觉理解提供了更丰富的训练资源，从而提高了VLMs在多个视觉基准测试中的性能。此外，该数据集还引入了“泄露模态混合”的概念，其中对话样本包含可以同时从图像和上下文说明中回答的问题，这有助于更好地整合视觉和文本信息。

实际应用

VisCon-100K 数据集在实际应用中可用于提高视觉语言模型的性能，从而改善图像描述、视觉问答等视觉任务的效果。此外，该数据集还提供了一种训练上下文说明器的方法，可用于生成高质量的上下文说明，从而支持可扩展的微调数据生成。

衍生相关工作

VisCon-100K 数据集衍生了一系列相关工作，包括 VisCon-1M 数据集，它是一个更大的数据集，包含 100 万个图像对话样本。此外，该数据集还训练了一个上下文说明器，可用于生成高质量的上下文说明，从而支持可扩展的微调数据生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集