VisualDataset100K

Hugging Face2024-11-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/REILX/VisualDataset100K

下载链接

链接失效反馈

官方服务：

资源简介：

VisualDataset100K数据集是一个包含100K图像数据的综合数据集，由本地部署的大型模型生成。数据集包括详细的图像描述、图像问答、基于图像的多选题以及用于直接偏好优化和监督微调的训练数据。数据集的内容涵盖了多种模型生成的数据，如Qwen2VL-2B、Qwen2VL-7B、Qwen2VL-72B-Int4等。

创建时间：

2024-10-27

原始信息汇总

VisualDataset100K 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别:
- 问答
- 图像到文本
语言: 中文
数据集规模: 100K<n<1M

数据集构建

1. 本地部署大型模型

工具: vllm + nginx
模型:
- Qwen/Qwen2-VL-2B-Instruct
- Qwen/Qwen2-VL-7B-Instruct
- Qwen/Qwen2-VL-72B-Instruct-GPTQ-Int4
部署方式:
- 使用多GPU，通过vllm加载模型，并使用nginx进行负载均衡。
- 每个GPU上运行一个vllm实例，端口分别为8001, 8002, 8003, 8004。

2. VisualDataset100K 数据集构建

数据集生成脚本:
- ImagesToQuestion_vllm_VD100K.py: 生成图像问题并保存为JSON文件。
- ImagesToQuestionAns_vllm_VD100K.py: 根据生成的问题生成答案。
- ImagesToDetails_vllm_VD100K.py: 生成图像的详细描述。
- ImagesToChoiceQA_vllm_VD100K.py: 生成图像的多选题及答案。
- JsonlChoiceQAClean.py: 整理ImagesToChoiceQA_vllm_VD100K.py生成的JSON文件。
数据集内容:
- 详细图像描述数据集 (100K):
  - Qwen2VL2B_Details.jsonl: 使用Qwen2VL-2B生成的图像描述。
  - Qwen2VL7B_Details.jsonl: 使用Qwen2VL-7B生成的图像描述。
  - Qwen2VL72BInt4_Details.jsonl: 使用Qwen2VL-72B-Int4生成的图像描述。
- 图像问答数据集 (100K & 58K):
  - Questions_Qwen2VL7B.jsonl: 由Qwen2VL-7B生成的图像问题 (100K)。
  - QuestionsAnswers_Qwen2VL2B.jsonl: 由Qwen2VL-7B生成问题，Qwen2VL-2B生成答案 (100K)。
  - QuestionsAnswers_Qwen2VL7B.jsonl: 由Qwen2VL-7B生成问题和答案 (100K)。
  - QuestionsAnswers_Qwen2VL72BInt4.jsonl: 由Qwen2VL-7B生成问题，Qwen2VL-72B-Int4生成答案 (100K)。
  - QuestionsAnswers-Claude3_5sonnnet-sorted.jsonl: 由Claude3.5Sonnet生成的问题和答案 (58K)。
  - QuestionsAnswers-Qwen2VL2B-sorted.jsonl: 由Claude3.5Sonnet生成问题，Qwen2VL-2B生成答案 (58K)。
  - QuestionsAnswers-Qwen2VL7B-sorted.jsonl: 由Claude3.5Sonnet生成问题，Qwen2VL-7B生成答案 (58K)。
  - QuestionsAnswers-Qwen2VL72B-sorted.jsonl: 由Claude3.5Sonnet生成问题，Qwen2VL-72B生成答案 (58K)。
- 基于图像的多选题数据集 (100K):
  - Qwen2VL7B_ChoiceQA.jsonl: 由Qwen2VL-7B生成的多选题及答案 (100K)。
  - Qwen2VL72BInt4_ChoiceQA.jsonl: 由Qwen2VL-72B-Int4生成的多选题及答案 (100K)。
- DPO数据集 (58K): 用于直接偏好优化训练。
  - Claude-Qwen2VL2B.json
  - Claude-Qwen2VL7B.json
  - Qwen2VL72B-Qwen2VL2B.json
  - Qwen2VL72B-Qwen2VL7B.json
- SFT数据集 (58K): 用于监督微调训练。
  - QuestionsAnswers-Claude3_5sonnnet.json
  - QuestionsAnswers-Qwen2VL2B.json
  - QuestionsAnswers-Qwen2VL7B.json
  - QuestionsAnswers-Qwen2VL72B.json

致谢

该项目受益于Visual Genome Dataset V1.2。感谢所有上述作者的贡献。

搜集汇总

数据集介绍

构建方式

VisualDataset100K数据集的构建过程依托于本地部署的大型模型，通过vllm技术在多GPU环境下加载Qwen系列模型，并结合nginx进行负载均衡。具体步骤包括在每块GPU上启动vllm实例，配置nginx以实现请求的分发与处理。随后，利用Python脚本生成图像相关的问答、详细描述及多项选择题，最终形成包含图像描述、问答对、选择题及DPO、SFT训练数据的多样化数据集。

特点

VisualDataset100K数据集以其规模庞大和内容多样著称，涵盖了100K至1M之间的数据量，主要面向图像到文本的任务。数据集包含详细的图像描述、基于图像的问答对、多项选择题以及用于直接偏好优化（DPO）和监督微调（SFT）的训练数据。其独特之处在于通过Qwen系列模型和Claude3.5Sonnet模型生成多样化的内容，确保了数据的高质量和广泛适用性。

使用方法

VisualDataset100K数据集的使用方法灵活多样，适用于多种自然语言处理和计算机视觉任务。用户可通过加载JSONL文件获取图像描述、问答对及选择题数据，直接用于模型训练或评估。对于DPO和SFT任务，数据集提供了专门的训练文件，用户可根据需求选择相应的数据进行模型优化。此外，数据集还支持通过GitHub获取完整的代码和生成脚本，便于用户进行二次开发与扩展。

背景与挑战

背景概述

VisualDataset100K数据集是近年来在视觉与自然语言处理交叉领域中的一项重要成果，旨在通过大规模图像与文本的关联，推动图像问答、图像描述生成等任务的发展。该数据集由研究人员利用Qwen系列模型（如Qwen2-VL-2B、Qwen2-VL-7B、Qwen2-VL-72B）以及Claude3.5Sonnet等先进模型构建而成，涵盖了超过10万张图像的详细描述、问答对以及多项选择题。其构建过程依赖于vllm框架的多GPU部署与nginx负载均衡技术，确保了数据生成的高效性与稳定性。VisualDataset100K的发布为视觉理解与语言生成的研究提供了丰富的资源，进一步推动了多模态学习领域的前沿探索。

当前挑战

VisualDataset100K在构建与应用过程中面临多重挑战。在领域问题层面，图像问答与描述生成任务对模型的语义理解与视觉感知能力提出了极高要求，如何确保生成内容的准确性与多样性成为核心难题。此外，多模态数据的对齐与融合也带来了技术上的复杂性，尤其是在处理大规模数据时，如何保持数据的一致性与质量尤为关键。在构建过程中，多GPU部署与负载均衡的技术实现需要精细的优化，以确保模型推理的高效性与稳定性。同时，数据生成脚本的设计与执行也需兼顾效率与准确性，避免生成冗余或错误的数据。这些挑战共同构成了VisualDataset100K在研究与实际应用中的主要障碍。

常用场景

经典使用场景

VisualDataset100K数据集在视觉问答和图像到文本生成任务中展现了其经典应用价值。通过多GPU部署的vllm模型，该数据集能够高效生成图像描述、问答对以及多项选择题，为研究者提供了丰富的视觉语言交互数据。这一数据集在视觉理解与自然语言处理的交叉领域具有重要应用，尤其是在图像内容解析和语义理解方面，为模型训练和评估提供了坚实的基础。

衍生相关工作

VisualDataset100K数据集衍生了一系列经典研究工作，特别是在视觉语言模型的优化和应用方面。基于该数据集的研究成果包括多模态模型的微调、直接偏好优化（DPO）技术的改进，以及视觉问答系统的性能提升。此外，该数据集还为视觉基因组数据集的扩展和应用提供了新的思路，推动了视觉语言理解领域的进一步发展。

数据集最近研究