TripleSumm-MoSu
收藏Hugging Face2026-03-15 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/hminjeong/TripleSumm-MoSu
下载链接
链接失效反馈官方服务:
资源简介:
MoSu(Most Replayed Multimodal Video Summarization)是首个大规模多模态视频摘要数据集,包含52,678个真实世界视频的同步视觉、音频和文本特征。其标注基于YouTube的“Most Replayed”统计数据,提供了高度可靠的逐帧重要性评分,反映了观众的集体参与度。数据集结构包括:1) 元数据文件(mosu_metadata.csv),包含视频ID、YouTube ID、时长、观看次数、标签和聚类ID;2) 多模态特征文件(.h5格式,约40GB每个),包括CLIP提取的视觉特征、Audio Spectrogram Transformer提取的音频特征和RoBERTa提取的文本特征;3) 标注文件(mosu_gt.h5),包含视频摘要的标注信息;4) 数据集划分文件(mosu_split.json),包含训练、验证和测试集的划分。该数据集适用于视频摘要任务,并支持多模态融合研究。
创建时间:
2026-03-11



