InternVL-Chat-V1-2-SFT-Data

Name: InternVL-Chat-V1-2-SFT-Data
Creator: OpenGVLab
Published: 2024-08-08 18:26:36
License: 暂无描述

Hugging Face2024-08-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于视觉问答和问答任务，支持中英文语言。包含多个配置文件，如ai2d_train_12k、chartqa_train_18k等，每个配置文件对应不同类型的训练数据文件。

提供机构：

OpenGVLab

创建时间：

2024-08-08

原始信息汇总

数据集概述

许可证

Apache 2.0

任务类别

视觉问答
问答

语言

英语
中文

配置

ai2d_train_12k
- 数据文件:
  - 分割: 训练
  - 路径: opensource/ai2d_train_12k.jsonl
chartqa_train_18k
- 数据文件:
  - 分割: 训练
  - 路径: opensource/chartqa_train_18k.jsonl
docvqa_train_10k
- 数据文件:
  - 分割: 训练
  - 路径: opensource/docvqa_train_10k.jsonl
dvqa_train_200k.jsonl
- 数据文件:
  - 分割: 训练
  - 路径: opensource/dvqa_train_200k.jsonl
geoqa+.jsonl
- 数据文件:
  - 分割: 训练
  - 路径: opensource/geoqa+.jsonl
llava_instruct_150k_zh.jsonl
- 数据文件:
  - 分割: 训练
  - 路径: opensource/llava_instruct_150k_zh.jsonl
sharegpt4v_instruct_gpt4-vision_cap100k.jsonl
- 数据文件:
  - 分割: 训练
  - 路径: opensource/sharegpt4v_instruct_gpt4-vision_cap100k.jsonl
sharegpt4v_mix665k_cap23k_coco-ap9k_lcs3k_sam9k_div2k.jsonl
- 数据文件:
  - 分割: 训练
  - 路径: opensource/sharegpt4v_mix665k_cap23k_coco-ap9k_lcs3k_sam9k_div2k.jsonl

搜集汇总

数据集介绍

构建方式

InternVL-Chat-V1-2-SFT-Data数据集的构建基于LLaVA-NeXT的启发，采用了一种数据高效的监督微调（SFT）策略。该数据集整合了多个开源视觉问答任务的数据源，包括ShareGPT-4V、LLaVA-ZH、DVQA、ChartQA、AI2D、DocVQA、GeoQA+以及SynthDoG-EN等。通过融合这些多样化的数据源，数据集涵盖了丰富的视觉与语言交互场景，总计约120万条视觉指令调优样本。

使用方法

InternVL-Chat-V1-2-SFT-Data数据集适用于视觉语言模型的训练与评估。研究人员可以通过加载不同的配置文件，如ai2d_train_12k、chartqa_train_18k等，获取特定任务的训练数据。数据集的使用方式灵活，支持多种视觉问答任务的微调与测试，为开发通用视觉语言模型提供了丰富的资源。

背景与挑战

背景概述

InternVL-Chat-V1-2-SFT-Data数据集由浙江大学等机构的研究团队于2023年发布，旨在推动视觉-语言多模态任务的研究。该数据集基于LLaVA-NeXT框架，采用了高效的有监督微调策略，整合了ShareGPT-4V、LLaVA-ZH、DVQA、ChartQA、AI2D、DocVQA、GeoQA+等多种开放数据源，涵盖了约120万视觉指令调优样本。其核心研究问题在于通过大规模视觉-语言对齐，提升通用视觉-语言任务的性能，为多模态大模型的开发提供了重要支持。该数据集在推动开源多模态模型与商业模型（如GPT-4V）的性能差距缩小方面具有显著影响力。

当前挑战

InternVL-Chat-V1-2-SFT-Data数据集面临的挑战主要体现在两个方面。其一，视觉-语言多模态任务本身具有高度复杂性，如何实现图像与文本的高效对齐仍是一个开放性问题，尤其是在处理多样化场景和跨语言任务时，模型的泛化能力面临严峻考验。其二，数据集的构建过程中，整合多源异构数据（如DVQA、ChartQA等）时，数据格式的统一、标注质量的保证以及数据平衡性的维护均需耗费大量资源与精力。此外，如何在不引入噪声的前提下扩展数据规模，同时保持数据的高质量与多样性，也是构建过程中亟待解决的关键问题。

常用场景

经典使用场景

InternVL-Chat-V1-2-SFT-Data数据集在视觉问答（VQA）和文档问答（DocVQA）等任务中展现了其经典应用场景。通过整合多种视觉和语言数据源，该数据集能够支持模型在多模态任务中进行高效的指令微调，尤其是在处理复杂的视觉和文本交互问题时表现出色。其丰富的训练样本涵盖了从图表解析到地理信息问答的多样化场景，为模型提供了广泛的学习素材。

解决学术问题

该数据集有效解决了多模态任务中视觉与语言对齐的难题，尤其是在开放域视觉问答和文档理解领域。通过引入大规模、多样化的视觉指令微调样本，InternVL-Chat-V1-2-SFT-Data显著提升了模型在跨模态任务中的泛化能力。其开源特性为学术界提供了宝贵的资源，推动了视觉-语言模型的研究进展，缩小了开源模型与商业多模态模型之间的性能差距。

实际应用

在实际应用中，InternVL-Chat-V1-2-SFT-Data数据集为智能助手、教育工具和自动化文档处理系统提供了强大的支持。例如，在教育领域，该数据集可用于开发能够解析复杂图表和地理信息的智能问答系统；在商业场景中，其文档问答能力可助力企业快速提取和分析合同、报告等关键信息，提升工作效率。

数据集最近研究