Multilingual Synopses of Movie Narratives (M-SYMON)

Name: Multilingual Synopses of Movie Narratives (M-SYMON)
Creator: 南洋理工大学计算与数据科学学院
Published: 2024-06-19 06:44:50
License: 暂无描述

arXiv2024-06-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.13092v1

下载链接

链接失效反馈

官方服务：

资源简介：

M-SYMON是由南洋理工大学计算与数据科学学院创建的大型多语言视频故事数据集，包含来自7种语言的13,166个电影摘要视频，总计2,136小时。数据集通过YouTube上的电影回顾视频收集，并手动注释了480个视频的精细视频-文本对应关系，总计101.5小时。M-SYMON旨在解决计算故事理解中的视频-文本对齐问题，特别是在多语言环境下的挑战，支持如文本到视频生成和视觉故事生成等应用。

M-SYMON is a large-scale multilingual video story dataset developed by the School of Computing and Data Science, Nanyang Technological University. It contains 13,166 movie recap videos across 7 languages, with a total duration of 2,136 hours. The dataset is collected from movie review videos on YouTube, and 480 of these videos have been manually annotated with fine-grained video-text correspondences, totaling 101.5 hours. M-SYMON aims to address the video-text alignment problem in computational story understanding, particularly the challenges in multilingual environments, and supports applications such as text-to-video generation and visual story generation.

提供机构：

南洋理工大学计算与数据科学学院

创建时间：

2024-06-19

搜集汇总

数据集介绍

构建方式

Multilingual Synopses of Movie Narratives (M-SYMON) 数据集的构建基于从YouTube上收集的电影回顾视频，涵盖了7种语言的13,166个视频，总计2,136小时。为了确保数据的多样性和代表性，研究团队通过关键词搜索识别了目标语言的电影回顾频道，并下载了相关视频及其字幕。随后，团队对480个视频进行了精细的人工标注，提供了101.5小时的视频与文本的精确对应关系。这些标注不仅包括一对一的匹配，还涵盖了一对多和无匹配的情况，确保了数据集的丰富性和复杂性。

特点

M-SYMON数据集的特点在于其多语言性和大规模的视频-文本对齐标注。数据集涵盖了英语、中文、西班牙语、法语、葡萄牙语、印地语和俄语等7种语言，反映了不同文化和语言的多样性。此外，数据集的标注不仅限于一对一的视频-文本匹配，还包括一对多和无匹配的情况，这为研究视频-文本对齐任务提供了更广泛的挑战。数据集的规模和多语言特性使其成为跨语言视频故事理解研究的重要资源。

使用方法

M-SYMON数据集的使用方法主要包括视频-文本对齐任务的训练和评估。研究人员可以利用数据集中的弱监督数据和人工标注数据，训练多语言视频-文本对齐模型。数据集还提供了多种基线方法，包括多语言训练、单语言训练、翻译训练和两阶段训练等策略，以支持不同语言环境下的模型训练和评估。此外，数据集还可用于跨语言迁移学习研究，评估模型在不同语言之间的泛化能力。通过使用M-SYMON，研究人员可以探索多语言视频故事理解中的挑战，并开发更先进的视频-文本对齐算法。

背景与挑战

背景概述

Multilingual Synopses of Movie Narratives (M-SYMON) 是一个多语言视频故事理解数据集，由南洋理工大学和南京理工大学的Yidan Sun、Jianfei Yu和Boyang Li等人于2024年构建。该数据集旨在解决计算故事理解中的核心任务——视频与文本对齐，特别是在多语言环境下的挑战。M-SYMON包含13,166部电影摘要视频，涵盖7种语言，并提供了101.5小时视频的细粒度视频-文本对应关系的人工标注。该数据集的构建填补了现有数据集在语言多样性和文化多样性方面的不足，推动了多语言视频-文本对齐任务的研究进展。

当前挑战

M-SYMON数据集面临的挑战主要包括两个方面。首先，视频与文本对齐任务本身具有复杂性，尤其是在多语言环境下，不同语言的叙事风格和文化背景差异增加了对齐的难度。其次，数据集的构建过程中，人工标注视频与文本的对应关系耗时且成本高昂，尤其是在处理多语言数据时，确保标注的一致性和准确性尤为困难。此外，自动语音识别和标点恢复等预处理步骤可能引入噪声，进一步增加了数据处理的复杂性。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

Multilingual Synopses of Movie Narratives (M-SYMON) 数据集在计算故事理解领域中被广泛应用于视频-文本对齐任务。该数据集通过提供多语言的电影摘要视频及其对应的文本描述，帮助研究者训练和评估模型在跨语言环境下的视频-文本对齐能力。M-SYMON 的经典使用场景包括电影情节理解、视频片段与文本描述的精确对齐，以及跨语言故事理解任务。

衍生相关工作

M-SYMON 数据集推动了多语言视频-文本对齐领域的研究，衍生出多项经典工作。例如，基于该数据集的研究提出了多种多语言训练策略，如多语言联合训练、单语言独立训练和翻译训练等。这些方法在跨语言视频-文本对齐任务中取得了显著进展，并为后续研究提供了重要的参考。此外，M-SYMON 还激发了更多关于多语言故事理解数据集的研究，进一步丰富了该领域的数据资源。

数据集最近研究