MovieStory101

github2024-11-21 更新2024-11-28 收录

下载链接：

https://github.com/hyc2026/StoryTeller

下载链接

链接失效反馈

官方服务：

资源简介：

MovieStory101数据集包含3分钟长的视频片段，每个片段附有详细的描述、对应的演员列表和带有角色名称的字幕。

The MovieStory101 Dataset contains 3-minute-long video clips, each of which is accompanied by a detailed description, a corresponding cast list, and subtitles with character names.

创建时间：

2024-11-12

原始信息汇总

StoryTeller 数据集概述

简介

StoryTeller 是一个用于生成长视频密集描述的系统，结合了低级视觉概念和高级剧情信息。该系统使用多模态大语言模型，整合视觉、音频和文本模态，进行音频-视觉角色识别，以增强视频描述的一致性。

框架

StoryTeller 的框架包括三个主要模块：

视频分割：将长视频分割成秒级的独立且内部完整的片段。
音频-视觉角色识别：使用音频和视觉线索识别每个对话线的角色。
描述生成：为每个短片段生成详细描述，最终生成整个长视频的连贯和一致的叙事。

数据集

标注数据

字幕：data/raw_data/caption.json
音频分割：data/raw_data/diarization.json
数据集划分：data/raw_data/split.json
每个片段的主要演员：data/raw_data/ref_actor
电影问答：data/raw_data/movie_qa.jsonl

视频文件

数据集包含5,210个训练片段、140个开发片段和632个测试片段。视频文件可通过申请访问权限获取。

数据处理步骤

生成帧和音频文件：
- 输入视频路径：data/video
- 输出帧路径：data/frame
- 输出音频路径：data/audio
视频片段分割：
- 通过自动场景变化检测将3分钟视频片段分割成小段，结果存储在data/raw_data/scene_detect。
- 最终分割文件存储在data/scene_detect/scene_split_new.json。
生成每个角色的参考照片：
- 对于MovieQA数据集，提供每个片段的演员列表。
- 其他电影可通过IMDb演员列表和面部识别算法获取演员列表。
全局音频分割：
- 使用ERes2NetV2模型进行音频嵌入，结果存储在data/global_diarization/embeddings.jsonl。
- 使用聚类算法分配全局ID，结果存储在data/global_diarization/diarization_id.jsonl。
音频-视觉角色识别：
- 使用Tarsier-7B模型和OpenAI Whisper-large-v2音频编码器进行角色识别。
- 生成最终的音频分割结果，存储在data/audio_visual_diarization/correct/test_diarization.json。
长描述生成：
- 使用Tarsier-7B模型生成最终的视频描述。
- 生成密集描述并进行电影问答评估。

模型检查点

即将发布。

引用

请引用以下内容： BibTeX @misc{he2024storyteller, title={StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification}, author={Yichen He and Yuan Lin and Jianchao Wu and Hanchong Zhang and Yuchen Zhang and Ruicheng Le}, year={2024}, eprint={2411.07076}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

MovieStory101数据集的构建过程融合了多模态技术，旨在解决长视频描述中的连贯性和一致性问题。首先，通过视频分割模块将长视频分割为秒级独立片段，确保每个片段内部完整。随后，利用音频-视觉角色识别模块，结合音频和视觉线索，识别每个对话中的角色。最后，通过描述生成模块，生成每个短片段的详细描述，最终形成整个长视频的连贯叙述。这一过程不仅整合了低级视觉概念，还融入了高级剧情信息，确保描述的准确性和一致性。

使用方法

使用MovieStory101数据集时，研究者可以按照提供的步骤进行操作。首先，通过预处理脚本生成视频的帧和音频文件。接着，利用自动场景变化检测将3分钟视频片段分割为小段，并进行后处理以确保对话的完整性。随后，生成每个角色的参考照片，并进行全局音频分割，确保角色识别的准确性。最后，利用生成的描述数据进行长视频描述的生成和评估。数据集提供了详细的中间结果，允许研究者从任意步骤开始，极大地提高了数据集的灵活性和实用性。

背景与挑战

背景概述

在视觉语言模型（LVLMs）领域，现有的模型主要处理短时视频，难以生成对长时间视频的连贯描述。为了解决这一问题，MovieStory101数据集应运而生，由Yichen He等研究人员于2024年创建。该数据集的核心研究问题是如何在长时间视频中实现音频视觉角色的识别，并生成一致的描述。通过整合视觉、音频和文本模态，MovieStory101不仅提升了视频描述的连贯性，还为相关领域的研究提供了新的视角和方法。

当前挑战

MovieStory101数据集在构建过程中面临多项挑战。首先，长时间视频的描述需要处理剧情层面的连贯性，这对模型的复杂性和计算资源提出了高要求。其次，音频视觉角色的识别依赖于多模态数据的整合，如何确保不同模态信息的一致性和准确性是一大难题。此外，数据集的标注和分割过程也需精细处理，以确保每个片段的独立性和内部完整性。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在处理长视频描述时，MovieStory101数据集展现了其独特的应用价值。该数据集通过整合视觉、音频和文本多模态信息，实现了对分钟级视频片段的详细描述生成。其经典使用场景包括：首先，通过视频分割模块将长视频分割为秒级独立片段；其次，利用音频-视觉角色识别模块，结合音频和视觉线索识别每个对话中的角色；最后，通过描述生成模块，生成每个片段的详细描述，最终形成连贯的长视频叙事。

解决学术问题

MovieStory101数据集解决了长视频描述中的多个学术研究问题。首先，它克服了现有视觉-语言模型在处理长视频时的局限性，通过多模态融合提升了描述的连贯性和一致性。其次，该数据集通过音频-视觉角色识别，解决了长视频中角色身份识别的难题，增强了描述的准确性。此外，MovieStory101还为长视频描述的生成提供了新的研究方向，推动了多模态学习和视频理解领域的发展。

实际应用

在实际应用中，MovieStory101数据集具有广泛的应用前景。例如，在影视制作领域，该数据集可以用于自动生成电影或电视剧的详细剧本描述，辅助编剧和导演的工作。在教育领域，它可以用于创建互动式教学视频，通过详细的视频描述增强学生的理解。此外，在视频内容审核和推荐系统中，MovieStory101也能提供更精准的内容分析和推荐服务，提升用户体验。

数据集最近研究