InternVid

Name: InternVid
Creator: maas
Published: 2026-05-15 22:55:29
License: 暂无描述

魔搭社区2026-05-15 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/OpenGVLab/InternVid

下载链接

链接失效反馈

官方服务：

资源简介：

# InternVid ## Dataset Description - **Homepage:** [InternVid](https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid) - **Repository:** [OpenGVLab](https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid) - **Paper:** [2307.06942](https://arxiv.org/pdf/2307.06942.pdf) - **Point of Contact:** mailto:[InternVideo](gvx-sh@pjlab.org.cn) ## InternVid-10M-FLT We present InternVid-10M-FLT, a subset of this dataset, consisting of 10 million video clips, with generated high-quality captions for publicly available web videos. ## Download The 10M samples are provided in jsonlines file. Columns include the videoID, timestamps, generated caption and their UMT similarity scores.\ ## How to Use ``` from datasets import load_dataset dataset = load_dataset("OpenGVLab/InternVid") ``` ## Method ![Caption Method](assert/caption_fig.jpg) ## Citation If you find this work useful for your research, please consider citing InternVid. Your acknowledgement would greatly help us in continuing to contribute resources to the research community. ``` @article{wang2023internvid, title={InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation}, author={Wang, Yi and He, Yinan and Li, Yizhuo and Li, Kunchang and Yu, Jiashuo and Ma, Xin and Chen, Xinyuan and Wang, Yaohui and Luo, Ping and Liu, Ziwei and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2307.06942}, year={2023} } @article{wang2022internvideo, title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning}, author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2212.03191}, year={2022} } ```

# InternVid ## 数据集说明 - **主页：** [InternVid](https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid) - **代码仓库：** [OpenGVLab](https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid) - **论文：** [2307.06942](https://arxiv.org/pdf/2307.06942.pdf) - **联系方式：** 邮件至 [InternVideo](mailto:gvx-sh@pjlab.org.cn) ## InternVid-10M-FLT 我们推出了本数据集的子集InternVid-10M-FLT，该子集包含1000万个视频片段，并为公开可用的网络视频生成了高质量的视频描述字幕。 ## 下载该1000万条样本以JSON行格式（jsonlines）存储，数据字段包含视频ID（videoID）、时间戳（timestamps）、生成的描述字幕以及对应的UMT相似度得分。 ## 使用方法 from datasets import load_dataset dataset = load_dataset("OpenGVLab/InternVid") ## 方法 ![字幕生成方法](assert/caption_fig.jpg) ## 引用如果您的研究中用到了本数据集，请引用InternVid相关论文。您的认可将极大助力我们持续为科研社区贡献相关资源。 @article{wang2023internvid, title={InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation}, author={Wang, Yi and He, Yinan and Li, Yizhuo and Li, Kunchang and Yu, Jiashuo and Ma, Xin and Chen, Xinyuan and Wang, Yaohui and Luo, Ping and Liu, Ziwei and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2307.06942}, year={2023} } @article{wang2022internvideo, title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning}, author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2212.03191}, year={2022} }

提供机构：

maas

创建时间：

2024-05-31

5,000+

优质数据集

54 个

任务类型

进入经典数据集