five

InternVL-Data

收藏
Hugging Face2025-04-22 更新2025-04-23 收录
下载链接:
https://huggingface.co/datasets/OpenGVLab/InternVL-Data
下载链接
链接失效反馈
官方服务:
资源简介:
InternVL-Data是一个面向多模态大语言模型(MLLMs)研究的多模态大数据集,包含图像、文本和视频理解相关的任务。该数据集整合了来自精选的开源数据集、自合成数据集以及从互联网上收集的数据。目前计划分阶段发布InternVL2.5和InternVL3的SFT数据。
提供机构:
OpenGVLab
创建时间:
2025-04-12
原始信息汇总

InternVL-Data 数据集概述

基本信息

  • 语言: 多语言 (multilingual)
  • 许可证: CC BY 4.0 (cc-by-4.0)
  • 任务类别: 图像到文本 (image-to-text)、问答 (question-answering)
  • 数据规模: 10M < n < 100M (10M到100M之间)

数据集简介

InternVL3开放数据集旨在支持多模态大语言模型(MLLMs)的研究与开发,特别是涉及图像、文本和视频理解的任务。数据集由多种来源的数据组成,包括精选的开源数据集、自合成数据集以及从互联网收集的数据。

数据发布计划

  • 第一阶段: 发布InternVL2.5和InternVL3的SFT数据。
  • 发布时间: 计划在未来2到4周内陆续上传数据,首先发布InternVL2.5的SFT数据,随后发布InternVL3的SFT数据。

数据列表

  • InternVL2.5-SFT: 待发布 (TODO)
  • InternVL3-SFT: 待发布 (TODO)

引用信息

如果使用此数据集,请考虑引用以下论文: BibTeX @article{zhu2025internvl3, title={InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models}, author={Zhu, Jinguo and Wang, Weiyun and Chen, Zhe and Liu, Zhaoyang and Ye, Shenglong and Gu, Lixin and Duan, Yuchen and Tian, Hao and Su, Weijie and Shao, Jie and others}, journal={arXiv preprint arXiv:2504.10479}, year={2025} } @article{chen2024expanding, title={Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling}, author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others}, journal={arXiv preprint arXiv:2412.05271}, year={2024} } @article{chen2024far, title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites}, author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others}, journal={arXiv preprint arXiv:2404.16821}, year={2024} } @inproceedings{chen2024internvl, title={Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks}, author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={24185--24198}, year={2024} }

相关资源

  • GitHub: https://github.com/OpenGVLab/InternVL
  • 论文:
    • InternVL 1.0: https://huggingface.co/papers/2312.14238
    • InternVL 1.5: https://huggingface.co/papers/2404.16821
    • InternVL 2.5: https://huggingface.co/papers/2412.05271
    • InternVL2.5-MPO: https://huggingface.co/papers/2411.10442
    • InternVL3: https://huggingface.co/papers/2504.10479
搜集汇总
数据集介绍
main_image_url
构建方式
在构建InternVL-Data数据集时,研究团队采用了多源数据整合策略,涵盖图像、文本和视频理解任务。数据集整合了精选的开源数据集、自行合成的数据以及从互联网收集的多样化信息。为确保数据质量,团队进行了严格的筛选和预处理,旨在为多模态大语言模型(MLLMs)的研究提供全面支持。数据发布计划分阶段进行,优先推出InternVL2.5的监督微调(SFT)数据,随后逐步开放InternVL3的相关数据。
使用方法
使用InternVL-Data数据集时,研究人员可通过HuggingFace平台或GitHub仓库获取数据。数据集适用于训练和评估多模态大语言模型,尤其在图像与文本的联合理解任务中表现优异。用户可根据任务需求选择特定子集,如InternVL2.5-SFT或InternVL3-SFT,进行监督微调或零样本评估。详细的文档和快速入门指南为初学者提供了便利,而高级用户可通过API或本地部署进一步探索数据潜力。
背景与挑战
背景概述
InternVL-Data是由OpenGVLab团队推出的多模态大语言模型(MLLMs)研究数据集,旨在支持图像、文本和视频理解任务的研究与开发。该数据集汇集了来自多个渠道的数据,包括精选的开源数据集、自合成数据以及网络收集的数据。自2024年起,团队陆续发布了InternVL系列论文,如InternVL 1.0、1.5、2.5及3.0版本,逐步扩展了开源多模态模型的性能边界。该数据集的核心研究问题在于如何通过模型、数据和测试时扩展,提升开源多模态模型的性能,使其接近商业模型的水平。InternVL-Data的发布为学术界和工业界提供了宝贵的资源,推动了多模态领域的技术进步。
当前挑战
InternVL-Data面临的挑战主要集中在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,多模态大语言模型需要处理图像、文本和视频的复杂关联,如何实现跨模态的高效对齐与理解仍是一个开放性问题。构建过程中,数据集的多样性和规模是关键挑战,需平衡数据的广泛覆盖与质量保证。此外,数据来源的合法性与伦理问题,以及多语言环境下的文化适应性,也是构建过程中不可忽视的难点。这些挑战要求研究者在数据采集、清洗和标注过程中投入大量资源,以确保数据集的可靠性和实用性。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,InternVL-Data数据集为多模态大语言模型(MLLMs)的训练与评估提供了丰富资源。该数据集通过整合图像、文本及视频理解任务,成为研究者探索视觉-语言对齐机制的理想实验平台。其经典应用场景包括图像描述生成、视觉问答系统开发,以及跨模态检索任务,为模型在复杂多模态环境下的性能优化提供了标准化基准。
解决学术问题
该数据集有效解决了多模态学习中数据稀缺与质量不均的核心挑战。通过融合开源数据集、合成数据及网络采集内容,它填补了传统单模态研究的局限性,为探索视觉与语言表征的联合优化提供了实证基础。其大规模、多语言的特性显著提升了模型在零样本迁移、小样本适应等前沿课题上的研究效率,推动了通用多模态智能体的理论发展。
实际应用
在实际应用层面,InternVL-Data支撑了智能客服系统的多模态交互升级,使机器能同时解析用户输入的图像与文本信息。教育领域利用该数据集开发了可视化教学助手,可自动生成教材插图的文字解说。医疗健康场景中,基于该数据训练的模型能辅助分析医学影像与病历文本的关联性,为精准诊断提供决策支持。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)研究的深入,InternVL-Data作为支持图像、文本及视频理解任务的关键数据集,正逐渐成为学术界和工业界关注的焦点。该数据集通过整合开源数据集、自合成数据及网络采集数据,为多模态模型的训练与评估提供了丰富资源。前沿研究聚焦于如何利用InternVL-Data提升模型的跨模态对齐能力,特别是在视觉-语言联合表示学习、多模态问答系统及视频理解等任务中展现出显著潜力。近期,InternVL系列模型的迭代(如InternVL3)进一步验证了数据规模与模型性能的正相关性,相关成果在CVPR等顶级会议上引发广泛讨论。该数据集的开放不仅推动了开源多模态模型的发展,也为缩小与商业模型(如GPT-4V)的差距提供了重要支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作