ResearcherT98/VAAC
收藏Hugging Face2024-06-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ResearcherT98/VAAC
下载链接
链接失效反馈官方服务:
资源简介:
我们提出了一个为视频添加视听文本描述的框架。我们的三步过程包括使用音频描述器从声音生成听觉描述,使用视频描述器从视频内容生成视觉描述,以及使用连接或指令微调的大语言模型(LLMs)合并这两种描述,从而从两种模态中提取全面信息。我们的描述方法应用于现有的视频数据集以验证其有效性,这些数据集包括AudioSet、VGGSound和VaTeX。视频可以通过提供的YouTubeID从YouTube下载。标注文件包含音频、视频、中心帧和合并的视听描述。我们提供了一个包含1,867,424个样本的训练集和一个包含33,829个样本的验证集。标注文件包含以下列:youtube_id(用于从YouTube下载视频的11位标识符)、start_time(视频片段的开始时间,以秒为单位)、end_time(视频片段的结束时间,以秒为单位)、filename(完整文件名)、caption_auditory(三个音频描述的列表)、caption_visual(三个视频描述的列表)、caption_audiovisual(一个LLM合并的视听描述的列表)、caption_frame(与中心帧相关的三个图像描述的列表)。
Dataset that contains different captions for videos with audio, suitable for video classification, zero-shot classification, and audio classification tasks. The dataset generates captions through a three-step process, including generating auditory captions from sounds, visual captions from video content, and merging these two types of captions using large language models. It includes subsets from video datasets such as AudioSet, VGGSound, and VaTeX, and provides training and validation splits. The caption files contain audio, video, center frame, and merged audiovisual captions.
提供机构:
ResearcherT98



