five

VisCon-100K

收藏
arXiv2025-02-14 更新2025-02-18 收录
下载链接:
https://huggingface.co/datasets/tiiuae/viscon-100k
下载链接
链接失效反馈
官方服务:
资源简介:
VisCon-100K是由阿布扎比技术创新研究所创建的一个包含10万条样本的视觉语言模型微调数据集。该数据集从OBELICS数据集中精选45K网页文档,利用GPT-4V生成图像上下文字幕,并通过OpenChat 3.5模型生成多样化的问答对。数据集融合了精细的视觉描述和更广泛的上下文信息,显著提升了视觉语言模型的性能。

VisCon-100K is a 100,000-sample fine-tuning dataset for vision-language models, developed by the Technology Innovation Institute in Abu Dhabi. It selects 45K web documents from the OBELICS dataset, uses GPT-4V to generate image context captions, and employs the OpenChat 3.5 model to generate diverse question-answer pairs. By integrating fine-grained visual descriptions and broader contextual information, this dataset significantly enhances the performance of vision-language models.
提供机构:
阿布扎比技术创新研究所
创建时间:
2025-02-14
搜集汇总
数据集介绍
main_image_url
构建方式
VisCon-100K数据集是通过将45K个来自OBELICS数据集的网页文档转化为100K个图像对话样本构建而成的。这一过程涉及使用GPT4V生成图像上下文描述,以及利用OpenChat 3.5模型将这些描述转化为多样化的自由式和多项选择题-答案对。数据集的构建旨在捕捉细粒度的视觉描述和更广泛的上下文信息,从而更有效地微调视觉语言模型(VLMs)。
特点
VisCon-100K数据集的特点在于其丰富的上下文信息,它不仅包含了图像的详细描述,还整合了来自图像周围网页的背景知识。这种上下文丰富性使得数据集在多个基准测试中显著提升了VLMs的性能。此外,数据集采用了“泄漏模态混合”的概念,其中对话样本包含了可以从图像及其上下文描述中回答的问题,这种混合模式优于非泄漏的描述和问答对组合。VisCon-100K数据集还提供了训练有素的上下文描述器,以便于未来研究和开源应用中可扩展的微调数据生成。
使用方法
使用VisCon-100K数据集的方法包括将其作为微调VLMs的额外数据源。数据集可以与现有的微调数据结合使用,以提升模型在视觉问答、图像描述等任务上的性能。此外,数据集中的上下文描述器可以用于生成高质量的上下文描述,从而为研究和应用提供更多可用的微调数据。在微调过程中,用户可以探索不同的数据组合,例如单独使用上下文描述、单独使用问答对,或者结合两者,以及采用泄漏模态混合策略,以找到最佳的模型性能。
背景与挑战
背景概述
在视觉语言模型(VLMs)领域,尽管模型在各类视觉基准测试中表现出色,但往往受到高质量视觉微调数据不足的限制。为了应对这一挑战,VisCon-100K数据集应运而生。该数据集由来自交替图像-文本网页文档的数据构成,由Gokul Karthik Kumar、Iheb Chaabane和Kebin Wu等研究人员在阿布扎比技术创新研究所(TII)创建。VisCon-100K通过将OBELICS数据集中的45K网页文档转化为100K图像对话样本,利用GPT4V生成图像上下文描述,并使用OpenChat 3.5模型将这些描述转化为多样化的自由式和多项选择题-答题对。该数据集的引入显著提升了VLM在多个基准测试中的性能。与仅关注细粒度视觉内容的方法不同,VisCon-100K利用伴随的网页上下文,取得了优异的结果。研究还发现,'漏模态混合',即对话样本包含可以从图像和其上下文描述中回答的问题,优于非漏模态的描述和问答对组合。VisCon-100k数据集在两种流行的VLM方法中表现出色:仅使用图像描述数据的文本大型语言模型(LLM)与视觉编码器对齐(ShareGPT4V-7b)以及使用交替图像-文本数据的模态预训练LLM(IDEFICS2-8b)。除了发布VisCon-100K数据集外,研究人员还提供了一个在VisCon-100K数据集上训练的上下文描述器,以促进未来研究和开源应用的可扩展微调数据生成。使用相同的管道,但用我们训练的上下文描述器替换GPT-4V,还发布了更大的VisCon-1M数据集。
当前挑战
VisCon-100K数据集面临的挑战包括:1)解决领域问题的挑战,即缺乏高质量的视觉微调数据,以及现有数据集在捕捉更广泛的基于网页的上下文方面的不足;2)构建过程中的挑战,包括如何有效地利用上下文网络数据,避免冗余信息,以及如何确保上下文信息的质量和相关性。为了应对这些挑战,研究人员开发了复杂的数据生成流程,并引入了'漏模态混合'的概念,即对话样本包含可以从图像和其上下文描述中回答的问题,从而促进视觉和文本信息的更好整合。此外,还训练了一个上下文描述器,以减少对付费服务的依赖,并提高数据生成的可扩展性。
常用场景
经典使用场景
VisCon-100K 数据集主要用于视觉语言模型(VLMs)的微调。通过利用图像上下文和网页文本,该数据集为视觉理解提供了更丰富的训练资源,从而提高了VLMs在多个视觉基准测试中的性能。此外,该数据集还引入了“泄露模态混合”的概念,其中对话样本包含可以同时从图像和上下文说明中回答的问题,这有助于更好地整合视觉和文本信息。
实际应用
VisCon-100K 数据集在实际应用中可用于提高视觉语言模型的性能,从而改善图像描述、视觉问答等视觉任务的效果。此外,该数据集还提供了一种训练上下文说明器的方法,可用于生成高质量的上下文说明,从而支持可扩展的微调数据生成。
衍生相关工作
VisCon-100K 数据集衍生了一系列相关工作,包括 VisCon-1M 数据集,它是一个更大的数据集,包含 100 万个图像对话样本。此外,该数据集还训练了一个上下文说明器,可用于生成高质量的上下文说明,从而支持可扩展的微调数据生成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作