InternVid - 高质量大规模视频-文本数据集
收藏github2024-06-06 更新2024-07-22 收录
下载链接:
https://github.com/OpenGVLab/InternVideo
下载链接
链接失效反馈官方服务:
资源简介:
上海人工智能实验室联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid,旨在应对日益扩大的视频-语言建模规模需求,推动大模型视频理解和生成能力进一步提升。作为当前全球最大的视频-文本公开数据集之一,InternVid包含超700万条配有详细文本描述的视频,涵盖16种场景和约6000个动作描述,总时长接近76万小时,并具备高视频-文本对应性,数据集中的视频与文本描述高度匹配,为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。InternVid受到学术界广泛关注,已应用于多模态世界模型LWM,并被Google、Stable AI的视频生成工作使用或参考,相关论文在2024年国际表征学习大会(ICLR 2024)获Spotlight。
A high-quality large-scale video-text dataset named InternVid was co-released by Shanghai AI Laboratory, Nanjing University, Chinese Academy of Sciences and other institutions. It aims to address the escalating demand for scale in video-language modeling, and to further advance the video understanding and generation capabilities of large models. As one of the largest publicly available video-text datasets globally to date, InternVid comprises over 7 million videos paired with detailed textual descriptions, covering 16 scenarios and approximately 6,000 action descriptions, with a total duration of nearly 760,000 hours. The dataset boasts high video-text alignment, with the videos and their associated textual descriptions exhibiting strong semantic matching, serving as a high-quality "video dictionary" for training multimodal learning tasks including video-text semantic matching, video-text retrieval, and video-text generation. InternVid has garnered widespread academic attention. It has been applied in the multimodal world model LWM, and has been utilized or referenced by video generation research from Google and Stable AI. The corresponding paper was awarded a Spotlight presentation at the 2024 International Conference on Learning Representations (ICLR 2024).
提供机构:
上海人工智能实验室、南京大学、中国科学院等
创建时间:
2024-01-04
原始信息汇总
InternVideo: 视频基础模型用于多模态理解
数据集概述
- InternVideo: 通过生成和判别学习实现的通用视频基础模型。
- InternVideo2: 用于多模态视频理解的大规模视频基础模型。
- InternVid: 用于多模态理解和生成的大规模视频-文本数据集。
更新记录
2024.07: 发布了InternVid2的视频标注数据集(HuggingFace)。2024.06: 发布了InternVid的完整视频标注数据集(2.3亿视频-文本对)(OpenDataLab | HuggingFace)。2024.04: 发布了InternVideo2的模型检查点和脚本(HuggingFace)。2024.03: 发布了InternVideo2的技术报告(arXiv)。2024.01: InternVid数据集被接受为ICLR 2024的亮点展示。2023.07: 发布了用于促进多模态理解和生成的视频-文本数据集InternVid(Data/InternVid)。2023.05: 发布了用于调优端到端视频为中心的多模态对话系统的视频指令数据(Data/instruction_data)。2023.01: 发布了InternVideo的代码和模型(InternVideo1)。2022.12: 发布了InternVideo的技术报告(arXiv)。
联系信息
- 如有任何问题或建议,欢迎加入我们的微信群讨论。
- 如果您对在上海人工智能实验室的通用视觉组工作感兴趣,请联系Yi Wang (wangyi@pjlab.org.cn)。
搜集汇总
数据集介绍

构建方式
InternVid数据集的构建基于大规模的视频和文本对,通过先进的视频理解技术,从海量视频资源中提取关键帧和相应的文本描述。该数据集的构建过程包括视频采集、关键帧提取、文本标注和数据清洗等多个环节,确保了数据的高质量和多样性。此外,数据集的构建还采用了多模态学习的方法,结合了视觉和文本信息,以支持多模态理解和生成任务。
使用方法
使用InternVid数据集时,用户可以通过OpenDataLab或HuggingFace等平台获取完整的数据集或其子集。数据集的结构设计合理,便于用户进行数据加载和预处理。用户可以根据具体的研究或应用需求,选择合适的数据子集进行训练和验证。此外,数据集提供了详细的文档和示例代码,帮助用户快速上手并实现多模态理解和生成任务。
背景与挑战
背景概述
InternVid,一个高质量大规模的视频-文本数据集,由上海人工智能实验室(Shanghai AI Lab)的General Vision Group团队于2023年7月发布。该数据集旨在促进多模态理解和生成,特别是在视频基础模型的研究中。InternVid的发布标志着在视频理解与生成领域的一个重要里程碑,其核心研究问题是如何通过大规模的视频-文本对来提升多模态模型的性能。该数据集不仅在ICLR 2024上获得了焦点展示,还对视频基础模型的发展产生了深远影响。
当前挑战
InternVid在构建过程中面临了多个挑战。首先,收集和标注大规模的视频-文本对需要巨大的资源和时间投入。其次,确保数据集的质量和多样性,以涵盖广泛的视频内容和文本描述,是一个复杂的过程。此外,如何在保持数据集规模的同时,确保每一对视频和文本的相关性和准确性,也是一大难题。这些挑战不仅影响了数据集的构建,也对其在多模态理解和生成任务中的应用提出了更高的要求。
常用场景
经典使用场景
在多模态理解与生成的研究领域,InternVid数据集因其高质量的大规模视频-文本对而备受瞩目。该数据集广泛应用于视频基础模型的训练与评估,特别是在视频内容理解、视频生成以及视频与文本的跨模态对齐等任务中。通过利用InternVid,研究者能够开发出更为精准和高效的视频分析模型,从而推动多模态学习的边界。
解决学术问题
InternVid数据集在解决多模态学习中的关键学术问题上发挥了重要作用。它通过提供丰富的视频-文本对,帮助研究者克服了视频数据标注不足和质量参差不齐的问题。这不仅提升了视频内容理解的准确性,还促进了视频生成技术的进步。此外,InternVid的广泛应用也推动了跨模态对齐算法的发展,为多模态学习的理论研究提供了坚实的基础。
实际应用
在实际应用中,InternVid数据集被广泛用于开发智能视频分析系统、视频推荐引擎以及视频内容生成工具。例如,在视频监控领域,利用InternVid训练的模型能够更准确地识别和分类视频中的对象和行为;在娱乐产业,该数据集支持了高质量视频内容的自动生成和个性化推荐。这些应用极大地提升了视频处理技术的实用性和效率。
数据集最近研究
最新研究方向
在视频与文本多模态理解领域,InternVid数据集的最新研究方向主要集中在扩展视频基础模型的规模和性能上。具体而言,研究者们通过引入更大规模的训练数据和更复杂的模型架构,如InternVideo2-Stage3-8B和InternVideo2-Stage3-8B-HD,以提升视频与文本之间的多模态理解和生成能力。此外,研究还涉及模型的小型化和高效化,如InternVideo2-S/B/L和VideoCLIP,这些模型通过知识蒸馏和优化设计,旨在实现更高效的计算和更广泛的应用场景。这些研究不仅推动了视频与文本多模态理解的技术前沿,也为实际应用中的视频分析和生成提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成



