lodestone-horizon/ShareGPT4Video
收藏Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lodestone-horizon/ShareGPT4Video
下载链接
链接失效反馈官方服务:
资源简介:
ShareGPT4Video Captions 4.8M是一个由GPT4-Vision驱动的多模态视频字幕数据集,旨在增强大型视频语言模型(LVLMs)和文本到视频模型(T2VMs)的模态对齐和细粒度视觉概念感知能力。该数据集包含由GPT4-Vision生成的视频字幕数据,以及由ShareCaptioner-Video生成的视频字幕对。数据集收集于2024年4月17日,主要用于多模态模型和文本到视频模型的研究。
ShareGPT4Video Captions 4.8M is a set of GPT4-Vision-powered multi-modal captions data of videos, constructed to enhance modality alignment and fine-grained visual concept perception in Large Video-Language Models (LVLMs) and Text-to-Video Models (T2VMs). The dataset includes video captions generated by GPT4-Vision and video-caption pairs generated by ShareCaptioner-Video. It was collected on April 17, 2024, and is primarily intended for research on large multimodal models and text-to-video models.
提供机构:
lodestone-horizon
原始信息汇总
ShareGPT4Video 4.8M Dataset Card
数据集详情
数据集类型: ShareGPT4Video Captions 4.8M 是一个由 GPT4-Vision 驱动的多模态视频字幕数据集。
该数据集旨在增强大型视频-语言模型(LVLMs)和文本到视频模型(T2VMs)的模态对齐和细粒度视觉概念感知能力,使其接近 GPT4V 和 Sora 的能力。
sharegpt4video_40k.jsonl由 GPT4-Vision(ShareGPT4Video)生成。share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json由我们训练的 ShareCaptioner-Video 生成,基于 GPT4-Vision 生成的视频-字幕对(ShareGPT4Video-Asthetic)。sharegpt4video_mix181k_vqa-153k_share-cap-28k.json从sharegpt4video_instruct_gpt4-vision_cap40k.json中筛选,用于 LVLMs 的监督微调阶段。
数据集日期: ShareGPT4Video Captions 4.8M 于 2024 年 4 月 17 日收集。
许可证: Attribution-NonCommercial 4.0 International
预期用途
主要预期用途: ShareGPT4Video Captions 4.8M 主要用于大型多模态模型和文本到视频模型的研究。
主要预期用户: 该数据集的主要用户是计算机视觉、自然语言处理、机器学习、AIGC 和人工智能领域的研究人员和爱好者。



