five

InternVideo2视频文本数据集

收藏
OpenDataLab2026-06-07 更新2024-07-27 收录
下载链接:
https://opendatalab.org.cn/yinanhe/InternVideo2-Vid-Text
下载链接
链接失效反馈
官方服务:
资源简介:
这是在 InternVideo2 训练的第二阶段收集的 6100 万音频-视觉-语音标注数据,其视频来源主要来自YT-Temporal-180M.我们提供了相同的 YouTubeID 以及起始和结束帧的标记。视频涵盖了广泛的主题和场景,以确保数据的多样性和代表性。其旨在促进视频和文本理解及交互领域的研究和开发。

This is a collection of 61 million audio-visual-speech annotated data collected during the second training phase of InternVideo2. The videos are primarily sourced from YT-Temporal-180M, and we provide the corresponding YouTubeIDs along with annotations for their start and end frames. These videos cover a wide range of topics and scenarios to ensure the diversity and representativeness of the dataset. This dataset aims to promote research and development in the fields of video and text understanding and interaction.
提供机构:
yinanhe
创建时间:
2024-07-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
InternVideo2视频文本数据集是一个包含6100万音频-视觉-语音标注数据的大规模多模态资源,其视频主要源自YT-Temporal-180M,并提供了YouTubeID及起始和结束帧的标注信息。该数据集旨在支持视频与文本理解及交互领域的研究与开发,涵盖广泛主题以确保多样性和代表性。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务