five

lodestone-horizon/ShareGPT4Video

收藏
Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lodestone-horizon/ShareGPT4Video
下载链接
链接失效反馈
官方服务:
资源简介:
ShareGPT4Video Captions 4.8M是一个由GPT4-Vision驱动的多模态视频字幕数据集,旨在增强大型视频语言模型(LVLMs)和文本到视频模型(T2VMs)的模态对齐和细粒度视觉概念感知能力。该数据集包含由GPT4-Vision生成的视频字幕数据,以及由ShareCaptioner-Video生成的视频字幕对。数据集收集于2024年4月17日,主要用于多模态模型和文本到视频模型的研究。

ShareGPT4Video Captions 4.8M is a set of GPT4-Vision-powered multi-modal captions data of videos, constructed to enhance modality alignment and fine-grained visual concept perception in Large Video-Language Models (LVLMs) and Text-to-Video Models (T2VMs). The dataset includes video captions generated by GPT4-Vision and video-caption pairs generated by ShareCaptioner-Video. It was collected on April 17, 2024, and is primarily intended for research on large multimodal models and text-to-video models.
提供机构:
lodestone-horizon
原始信息汇总

ShareGPT4Video 4.8M Dataset Card

数据集详情

数据集类型: ShareGPT4Video Captions 4.8M 是一个由 GPT4-Vision 驱动的多模态视频字幕数据集。

该数据集旨在增强大型视频-语言模型(LVLMs)和文本到视频模型(T2VMs)的模态对齐和细粒度视觉概念感知能力,使其接近 GPT4V 和 Sora 的能力。

  • sharegpt4video_40k.jsonl 由 GPT4-Vision(ShareGPT4Video)生成。
  • share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们训练的 ShareCaptioner-Video 生成,基于 GPT4-Vision 生成的视频-字幕对(ShareGPT4Video-Asthetic)。
  • sharegpt4video_mix181k_vqa-153k_share-cap-28k.jsonsharegpt4video_instruct_gpt4-vision_cap40k.json 中筛选,用于 LVLMs 的监督微调阶段。

数据集日期: ShareGPT4Video Captions 4.8M 于 2024 年 4 月 17 日收集。

许可证: Attribution-NonCommercial 4.0 International

预期用途

主要预期用途: ShareGPT4Video Captions 4.8M 主要用于大型多模态模型和文本到视频模型的研究。

主要预期用户: 该数据集的主要用户是计算机视觉、自然语言处理、机器学习、AIGC 和人工智能领域的研究人员和爱好者。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作