InternVid - 高质量大规模视频-文本数据集|视频-文本数据集数据集|多模态学习数据集

github2024-06-06 更新2024-07-22 收录

视频-文本数据集

多模态学习

下载链接：

https://github.com/OpenGVLab/InternVideo

下载链接

链接失效反馈

资源简介：

上海人工智能实验室联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid，旨在应对日益扩大的视频-语言建模规模需求，推动大模型视频理解和生成能力进一步提升。作为当前全球最大的视频-文本公开数据集之一，InternVid包含超700万条配有详细文本描述的视频，涵盖16种场景和约6000个动作描述，总时长接近76万小时，并具备高视频-文本对应性，数据集中的视频与文本描述高度匹配，为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。InternVid受到学术界广泛关注，已应用于多模态世界模型LWM，并被Google、Stable AI的视频生成工作使用或参考，相关论文在2024年国际表征学习大会（ICLR 2024）获Spotlight。

提供机构：

上海人工智能实验室、南京大学、中国科学院等

创建时间：

2024-01-04

原始信息汇总

InternVideo: 视频基础模型用于多模态理解

数据集概述

InternVideo: 通过生成和判别学习实现的通用视频基础模型。
InternVideo2: 用于多模态视频理解的大规模视频基础模型。
InternVid: 用于多模态理解和生成的大规模视频-文本数据集。

更新记录

2024.07: 发布了InternVid2的视频标注数据集（HuggingFace）。
2024.06: 发布了InternVid的完整视频标注数据集（2.3亿视频-文本对）（OpenDataLab | HuggingFace）。
2024.04: 发布了InternVideo2的模型检查点和脚本（HuggingFace）。
2024.03: 发布了InternVideo2的技术报告（arXiv）。
2024.01: InternVid数据集被接受为ICLR 2024的亮点展示。
2023.07: 发布了用于促进多模态理解和生成的视频-文本数据集InternVid（Data/InternVid）。
2023.05: 发布了用于调优端到端视频为中心的多模态对话系统的视频指令数据（Data/instruction_data）。
2023.01: 发布了InternVideo的代码和模型（InternVideo1）。
2022.12: 发布了InternVideo的技术报告（arXiv）。

联系信息

如有任何问题或建议，欢迎加入我们的微信群讨论。
如果您对在上海人工智能实验室的通用视觉组工作感兴趣，请联系Yi Wang (wangyi@pjlab.org.cn)。

AI搜集汇总

数据集介绍

构建方式

InternVid数据集的构建基于大规模的视频和文本对，通过先进的视频理解技术，从海量视频资源中提取关键帧和相应的文本描述。该数据集的构建过程包括视频采集、关键帧提取、文本标注和数据清洗等多个环节，确保了数据的高质量和多样性。此外，数据集的构建还采用了多模态学习的方法，结合了视觉和文本信息，以支持多模态理解和生成任务。

使用方法

使用InternVid数据集时，用户可以通过OpenDataLab或HuggingFace等平台获取完整的数据集或其子集。数据集的结构设计合理，便于用户进行数据加载和预处理。用户可以根据具体的研究或应用需求，选择合适的数据子集进行训练和验证。此外，数据集提供了详细的文档和示例代码，帮助用户快速上手并实现多模态理解和生成任务。

背景与挑战

背景概述

InternVid，一个高质量大规模的视频-文本数据集，由上海人工智能实验室（Shanghai AI Lab）的General Vision Group团队于2023年7月发布。该数据集旨在促进多模态理解和生成，特别是在视频基础模型的研究中。InternVid的发布标志着在视频理解与生成领域的一个重要里程碑，其核心研究问题是如何通过大规模的视频-文本对来提升多模态模型的性能。该数据集不仅在ICLR 2024上获得了焦点展示，还对视频基础模型的发展产生了深远影响。

当前挑战

InternVid在构建过程中面临了多个挑战。首先，收集和标注大规模的视频-文本对需要巨大的资源和时间投入。其次，确保数据集的质量和多样性，以涵盖广泛的视频内容和文本描述，是一个复杂的过程。此外，如何在保持数据集规模的同时，确保每一对视频和文本的相关性和准确性，也是一大难题。这些挑战不仅影响了数据集的构建，也对其在多模态理解和生成任务中的应用提出了更高的要求。

常用场景

经典使用场景

在多模态理解与生成的研究领域，InternVid数据集因其高质量的大规模视频-文本对而备受瞩目。该数据集广泛应用于视频基础模型的训练与评估，特别是在视频内容理解、视频生成以及视频与文本的跨模态对齐等任务中。通过利用InternVid，研究者能够开发出更为精准和高效的视频分析模型，从而推动多模态学习的边界。

解决学术问题

InternVid数据集在解决多模态学习中的关键学术问题上发挥了重要作用。它通过提供丰富的视频-文本对，帮助研究者克服了视频数据标注不足和质量参差不齐的问题。这不仅提升了视频内容理解的准确性，还促进了视频生成技术的进步。此外，InternVid的广泛应用也推动了跨模态对齐算法的发展，为多模态学习的理论研究提供了坚实的基础。

实际应用

在实际应用中，InternVid数据集被广泛用于开发智能视频分析系统、视频推荐引擎以及视频内容生成工具。例如，在视频监控领域，利用InternVid训练的模型能够更准确地识别和分类视频中的对象和行为；在娱乐产业，该数据集支持了高质量视频内容的自动生成和个性化推荐。这些应用极大地提升了视频处理技术的实用性和效率。

数据集最近研究

最新研究方向

在视频与文本多模态理解领域，InternVid数据集的最新研究方向主要集中在扩展视频基础模型的规模和性能上。具体而言，研究者们通过引入更大规模的训练数据和更复杂的模型架构，如InternVideo2-Stage3-8B和InternVideo2-Stage3-8B-HD，以提升视频与文本之间的多模态理解和生成能力。此外，研究还涉及模型的小型化和高效化，如InternVideo2-S/B/L和VideoCLIP，这些模型通过知识蒸馏和优化设计，旨在实现更高效的计算和更广泛的应用场景。这些研究不仅推动了视频与文本多模态理解的技术前沿，也为实际应用中的视频分析和生成提供了强有力的支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域环境数据库

该数据集包含中国各区域的环境数据，涵盖空气质量、水质、土壤污染等多个方面的指标。数据以时间序列的形式记录，便于进行长期的环境变化分析。

www.mee.gov.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录