InternVL-Data

Name: InternVL-Data
Creator: OpenGVLab
Published: 2025-04-22 23:46:45
License: 暂无描述

Hugging Face2025-04-22 更新2025-04-23 收录

下载链接：

https://huggingface.co/datasets/OpenGVLab/InternVL-Data

下载链接

链接失效反馈

官方服务：

资源简介：

InternVL-Data是一个面向多模态大语言模型（MLLMs）研究的多模态大数据集，包含图像、文本和视频理解相关的任务。该数据集整合了来自精选的开源数据集、自合成数据集以及从互联网上收集的数据。目前计划分阶段发布InternVL2.5和InternVL3的SFT数据。

提供机构：

OpenGVLab

创建时间：

2025-04-12

原始信息汇总

InternVL-Data 数据集概述

基本信息

语言: 多语言 (multilingual)
许可证: CC BY 4.0 (cc-by-4.0)
任务类别: 图像到文本 (image-to-text)、问答 (question-answering)
数据规模: 10M < n < 100M (10M到100M之间)

数据集简介

InternVL3开放数据集旨在支持多模态大语言模型（MLLMs）的研究与开发，特别是涉及图像、文本和视频理解的任务。数据集由多种来源的数据组成，包括精选的开源数据集、自合成数据集以及从互联网收集的数据。

数据发布计划

第一阶段: 发布InternVL2.5和InternVL3的SFT数据。
发布时间: 计划在未来2到4周内陆续上传数据，首先发布InternVL2.5的SFT数据，随后发布InternVL3的SFT数据。

数据列表

InternVL2.5-SFT: 待发布 (TODO)
InternVL3-SFT: 待发布 (TODO)

引用信息

如果使用此数据集，请考虑引用以下论文： BibTeX @article{zhu2025internvl3, title={InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models}, author={Zhu, Jinguo and Wang, Weiyun and Chen, Zhe and Liu, Zhaoyang and Ye, Shenglong and Gu, Lixin and Duan, Yuchen and Tian, Hao and Su, Weijie and Shao, Jie and others}, journal={arXiv preprint arXiv:2504.10479}, year={2025} } @article{chen2024expanding, title={Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling}, author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others}, journal={arXiv preprint arXiv:2412.05271}, year={2024} } @article{chen2024far, title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites}, author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others}, journal={arXiv preprint arXiv:2404.16821}, year={2024} } @inproceedings{chen2024internvl, title={Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks}, author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={24185--24198}, year={2024} }

相关资源

GitHub: https://github.com/OpenGVLab/InternVL
论文:
- InternVL 1.0: https://huggingface.co/papers/2312.14238
- InternVL 1.5: https://huggingface.co/papers/2404.16821
- InternVL 2.5: https://huggingface.co/papers/2412.05271
- InternVL2.5-MPO: https://huggingface.co/papers/2411.10442
- InternVL3: https://huggingface.co/papers/2504.10479

搜集汇总

数据集介绍

构建方式

在构建InternVL-Data数据集时，研究团队采用了多源数据整合策略，涵盖图像、文本和视频理解任务。数据集整合了精选的开源数据集、自行合成的数据以及从互联网收集的多样化信息。为确保数据质量，团队进行了严格的筛选和预处理，旨在为多模态大语言模型（MLLMs）的研究提供全面支持。数据发布计划分阶段进行，优先推出InternVL2.5的监督微调（SFT）数据，随后逐步开放InternVL3的相关数据。

使用方法

使用InternVL-Data数据集时，研究人员可通过HuggingFace平台或GitHub仓库获取数据。数据集适用于训练和评估多模态大语言模型，尤其在图像与文本的联合理解任务中表现优异。用户可根据任务需求选择特定子集，如InternVL2.5-SFT或InternVL3-SFT，进行监督微调或零样本评估。详细的文档和快速入门指南为初学者提供了便利，而高级用户可通过API或本地部署进一步探索数据潜力。

背景与挑战

背景概述

InternVL-Data是由OpenGVLab团队推出的多模态大语言模型（MLLMs）研究数据集，旨在支持图像、文本和视频理解任务的研究与开发。该数据集汇集了来自多个渠道的数据，包括精选的开源数据集、自合成数据以及网络收集的数据。自2024年起，团队陆续发布了InternVL系列论文，如InternVL 1.0、1.5、2.5及3.0版本，逐步扩展了开源多模态模型的性能边界。该数据集的核心研究问题在于如何通过模型、数据和测试时扩展，提升开源多模态模型的性能，使其接近商业模型的水平。InternVL-Data的发布为学术界和工业界提供了宝贵的资源，推动了多模态领域的技术进步。

当前挑战

InternVL-Data面临的挑战主要集中在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，多模态大语言模型需要处理图像、文本和视频的复杂关联，如何实现跨模态的高效对齐与理解仍是一个开放性问题。构建过程中，数据集的多样性和规模是关键挑战，需平衡数据的广泛覆盖与质量保证。此外，数据来源的合法性与伦理问题，以及多语言环境下的文化适应性，也是构建过程中不可忽视的难点。这些挑战要求研究者在数据采集、清洗和标注过程中投入大量资源，以确保数据集的可靠性和实用性。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，InternVL-Data数据集为多模态大语言模型（MLLMs）的训练与评估提供了丰富资源。该数据集通过整合图像、文本及视频理解任务，成为研究者探索视觉-语言对齐机制的理想实验平台。其经典应用场景包括图像描述生成、视觉问答系统开发，以及跨模态检索任务，为模型在复杂多模态环境下的性能优化提供了标准化基准。

解决学术问题

该数据集有效解决了多模态学习中数据稀缺与质量不均的核心挑战。通过融合开源数据集、合成数据及网络采集内容，它填补了传统单模态研究的局限性，为探索视觉与语言表征的联合优化提供了实证基础。其大规模、多语言的特性显著提升了模型在零样本迁移、小样本适应等前沿课题上的研究效率，推动了通用多模态智能体的理论发展。

实际应用

在实际应用层面，InternVL-Data支撑了智能客服系统的多模态交互升级，使机器能同时解析用户输入的图像与文本信息。教育领域利用该数据集开发了可视化教学助手，可自动生成教材插图的文字解说。医疗健康场景中，基于该数据训练的模型能辅助分析医学影像与病历文本的关联性，为精准诊断提供决策支持。

数据集最近研究