InternVL-Chat-V1-2-SFT-Data
收藏Hugging Face2024-08-08 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于视觉问答和问答任务,支持中英文语言。包含多个配置文件,如ai2d_train_12k、chartqa_train_18k等,每个配置文件对应不同类型的训练数据文件。
提供机构:
OpenGVLab
创建时间:
2024-08-08
原始信息汇总
数据集概述
许可证
- Apache 2.0
任务类别
- 视觉问答
- 问答
语言
- 英语
- 中文
配置
-
ai2d_train_12k
- 数据文件:
- 分割: 训练
- 路径: opensource/ai2d_train_12k.jsonl
- 数据文件:
-
chartqa_train_18k
- 数据文件:
- 分割: 训练
- 路径: opensource/chartqa_train_18k.jsonl
- 数据文件:
-
docvqa_train_10k
- 数据文件:
- 分割: 训练
- 路径: opensource/docvqa_train_10k.jsonl
- 数据文件:
-
dvqa_train_200k.jsonl
- 数据文件:
- 分割: 训练
- 路径: opensource/dvqa_train_200k.jsonl
- 数据文件:
-
geoqa+.jsonl
- 数据文件:
- 分割: 训练
- 路径: opensource/geoqa+.jsonl
- 数据文件:
-
llava_instruct_150k_zh.jsonl
- 数据文件:
- 分割: 训练
- 路径: opensource/llava_instruct_150k_zh.jsonl
- 数据文件:
-
sharegpt4v_instruct_gpt4-vision_cap100k.jsonl
- 数据文件:
- 分割: 训练
- 路径: opensource/sharegpt4v_instruct_gpt4-vision_cap100k.jsonl
- 数据文件:
-
sharegpt4v_mix665k_cap23k_coco-ap9k_lcs3k_sam9k_div2k.jsonl
- 数据文件:
- 分割: 训练
- 路径: opensource/sharegpt4v_mix665k_cap23k_coco-ap9k_lcs3k_sam9k_div2k.jsonl
- 数据文件:
搜集汇总
数据集介绍

构建方式
InternVL-Chat-V1-2-SFT-Data数据集的构建基于LLaVA-NeXT的启发,采用了一种数据高效的监督微调(SFT)策略。该数据集整合了多个开源视觉问答任务的数据源,包括ShareGPT-4V、LLaVA-ZH、DVQA、ChartQA、AI2D、DocVQA、GeoQA+以及SynthDoG-EN等。通过融合这些多样化的数据源,数据集涵盖了丰富的视觉与语言交互场景,总计约120万条视觉指令调优样本。
使用方法
InternVL-Chat-V1-2-SFT-Data数据集适用于视觉语言模型的训练与评估。研究人员可以通过加载不同的配置文件,如ai2d_train_12k、chartqa_train_18k等,获取特定任务的训练数据。数据集的使用方式灵活,支持多种视觉问答任务的微调与测试,为开发通用视觉语言模型提供了丰富的资源。
背景与挑战
背景概述
InternVL-Chat-V1-2-SFT-Data数据集由浙江大学等机构的研究团队于2023年发布,旨在推动视觉-语言多模态任务的研究。该数据集基于LLaVA-NeXT框架,采用了高效的有监督微调策略,整合了ShareGPT-4V、LLaVA-ZH、DVQA、ChartQA、AI2D、DocVQA、GeoQA+等多种开放数据源,涵盖了约120万视觉指令调优样本。其核心研究问题在于通过大规模视觉-语言对齐,提升通用视觉-语言任务的性能,为多模态大模型的开发提供了重要支持。该数据集在推动开源多模态模型与商业模型(如GPT-4V)的性能差距缩小方面具有显著影响力。
当前挑战
InternVL-Chat-V1-2-SFT-Data数据集面临的挑战主要体现在两个方面。其一,视觉-语言多模态任务本身具有高度复杂性,如何实现图像与文本的高效对齐仍是一个开放性问题,尤其是在处理多样化场景和跨语言任务时,模型的泛化能力面临严峻考验。其二,数据集的构建过程中,整合多源异构数据(如DVQA、ChartQA等)时,数据格式的统一、标注质量的保证以及数据平衡性的维护均需耗费大量资源与精力。此外,如何在不引入噪声的前提下扩展数据规模,同时保持数据的高质量与多样性,也是构建过程中亟待解决的关键问题。
常用场景
经典使用场景
InternVL-Chat-V1-2-SFT-Data数据集在视觉问答(VQA)和文档问答(DocVQA)等任务中展现了其经典应用场景。通过整合多种视觉和语言数据源,该数据集能够支持模型在多模态任务中进行高效的指令微调,尤其是在处理复杂的视觉和文本交互问题时表现出色。其丰富的训练样本涵盖了从图表解析到地理信息问答的多样化场景,为模型提供了广泛的学习素材。
解决学术问题
该数据集有效解决了多模态任务中视觉与语言对齐的难题,尤其是在开放域视觉问答和文档理解领域。通过引入大规模、多样化的视觉指令微调样本,InternVL-Chat-V1-2-SFT-Data显著提升了模型在跨模态任务中的泛化能力。其开源特性为学术界提供了宝贵的资源,推动了视觉-语言模型的研究进展,缩小了开源模型与商业多模态模型之间的性能差距。
实际应用
在实际应用中,InternVL-Chat-V1-2-SFT-Data数据集为智能助手、教育工具和自动化文档处理系统提供了强大的支持。例如,在教育领域,该数据集可用于开发能够解析复杂图表和地理信息的智能问答系统;在商业场景中,其文档问答能力可助力企业快速提取和分析合同、报告等关键信息,提升工作效率。
数据集最近研究
最新研究方向
近年来,随着多模态学习技术的快速发展,视觉-语言模型的研究逐渐成为人工智能领域的热点。InternVL-Chat-V1-2-SFT-Data数据集作为视觉问答和问答任务的重要资源,其最新研究方向主要集中在如何通过高效的监督微调(SFT)策略,进一步提升模型在复杂视觉-语言任务中的表现。该数据集整合了多种开放源数据,如ShareGPT-4V、LLaVA-ZH、DVQA等,旨在通过大规模视觉指令调优样本,推动模型在跨语言、跨领域的通用视觉-语言任务中的性能提升。这一研究方向不仅有助于缩小开源模型与商业多模态模型之间的差距,还为未来多模态智能系统的开发提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成



