viscon-1m

Name: viscon-1m
Creator: Technology Innovation Institute
Published: 2025-02-14 23:31:13
License: 暂无描述

Hugging Face2025-02-14 更新2025-02-15 收录

下载链接：

https://huggingface.co/datasets/tiiuae/viscon-1m

下载链接

链接失效反馈

官方服务：

资源简介：

VisCon-100K是一个专门设计用于视觉语言模型微调的图像-文本数据集，通过利用交错的图像-文本网页文档。该数据集包含10万个图像对话样本，利用GPT-4V生成图像上下文字幕，并将这些字幕转换为多样的问答对，以提升模型性能。

VisCon-100K is an image-text dataset specifically designed for fine-tuning vision-language models, which leverages interleaved image-text web documents. This dataset contains 100,000 image dialogue samples, where GPT-4V is employed to generate contextual captions for images, and these captions are converted into diverse question-answer pairs to enhance model performance.

提供机构：

Technology Innovation Institute

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

viscon-1m数据集的构建，旨在通过融合图像与文本的网页文档，促进视觉语言模型(VLMs)的微调。该数据集从OBELICS数据集的45K网页文档中衍生而出，采用GPT-4V生成图像上下文字幕，并通过OpenChat 3.5将这些字幕转化为多样化的自由形式和多项选择题问答对。这一构建方法不仅关注细粒度的视觉内容，也融入了伴随的网页上下文，以实现卓越的性能。通过相同的管道，使用训练有素的上下文标注器替代GPT-4V，进而形成了更大的viscon-1m数据集。

特点

viscon-1m数据集的特点在于，其不仅包含图像本身，还包含与图像相关的对话数据，这些对话数据包括字幕以及自由形式和多项选择题问答对。该数据集的设计使其在仅使用图像字幕对齐视觉编码器的文本独大大语言模型，以及使用交织的图像-文本数据的多模态预训练语言模型上，均显示出性能提升。实验还表明，包含从图像及其上下文字幕都能回答的问题的“泄露模态混合”配置，优于非泄露配置。

使用方法

使用viscon-1m数据集，可以通过Hugging Face的datasets库加载训练和测试分割。图像以ZIP归档形式提供，需要先解压才能在本地使用。在加载数据集后，用户可以访问图像路径和相应的对话数据。若在研究中使用此数据集，应引用相关论文，以遵循学术规范。

背景与挑战

背景概述

VisCon-1M数据集，创建于近年来，是由Gokul Karthik Kumar、Iheb Chaabane和Kebin Wu等研究人员精心构建的。该数据集的构建旨在通过利用交错的图像-文本网页文档，促进视觉语言模型（VLMs）的微调。其源于OBELICS数据集的45K网页文档，包含了100K图像对话样本，并使用GPT-4V生成图像上下文标题，OpenChat 3.5将这些标题转换为多样的自由形式和多项选择题问答对。VisCon-1M数据集的发布，对于提升视觉内容理解的细致程度以及融合伴随的网页上下文信息以获得更优性能，具有重要意义。该数据集已在多种任务中显示出性能提升，对相关领域的研究产生了显著影响。

当前挑战

在构建VisCon-1M数据集的过程中，研究人员面临的挑战主要包括：如何有效地结合图像和文本信息以提升视觉语言模型的性能；如何在生成图像上下文标题和问答对时保持多样性和准确性；以及如何处理'泄漏模态混合'（即对话样本中包含的问题既可从图像也可从其上下文标题中回答）这一特殊情况，以实现优于非泄漏配置的性能。此外，数据集的大规模特性也带来了存储、处理和加载效率上的挑战。

常用场景

经典使用场景

在计算机视觉与自然语言处理领域，viscon-1m数据集的典型应用场景在于微调视觉语言模型（VLMs），通过结合图像与文本的上下文信息，增强模型对图像内容的理解能力。该数据集提供了丰富的图像与伴随的对话样本，包括自由形式的描述和多项选择题的回答，这些样本有利于模型学习图像与文本之间的复杂交互。

解决学术问题

viscon-1m数据集有效解决了视觉语言模型在细粒度视觉内容理解上的局限性。通过引入图像的伴随上下文，该数据集帮助模型突破单一图像描述的框架，提升了对图像背景知识的理解和应用能力，从而在学术研究中促进了视觉语言模型的性能提升。

衍生相关工作

viscon-1m数据集的构建激发了多项相关研究工作，如基于该数据集的模型性能比较研究，以及针对特定领域（如医疗图像分析）的定制化视觉语言模型的开发。这些衍生工作进一步扩展了viscon-1m数据集的应用范围，并在不同领域产生了积极的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集