haoningwu/StorySalon

Name: haoningwu/StorySalon
Creator: haoningwu
Published: 2024-07-16 08:07:50
License: 暂无描述

Hugging Face2024-07-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haoningwu/StorySalon

下载链接

链接失效反馈

官方服务：

资源简介：

StorySalon数据集是一个用于开放式视觉故事讲述的数据集，包含从开源PDF和YouTube视频中提取的帧、对应的掩码、描述和原始故事叙述。数据集还提供了视频的元数据，包括视频的ID、名称、URL、时长和关键帧列表。数据处理流程包括关键帧提取、去重、图像分割、修复和描述生成等步骤。

提供机构：

haoningwu

原始信息汇总

StorySalon 数据集概述

数据来源

开源PDF数据：提供帧、对应掩码、描述和原始故事叙述。
YouTube视频数据：提供对应掩码、描述和原始故事叙述。视频元数据需自行下载，并使用提供的数据处理流程获取帧。

视频元数据准备

元数据文件：位于 ./Image_Inpainted/Video/metadata.json，包含视频的ID、名称、URL、时长和过滤后的关键帧列表。
视频下载：推荐使用 youtube-dl 下载视频。

数据处理流程

关键帧提取：提取关键帧及其对应字幕。
去重：检测并移除重复帧。
图像分割：分割图像中的文本、人物和头像，并移除仅包含真实人物的帧。
图像修复：根据分割掩码修复帧中的文本、头像和真实手部。
描述生成（可选）：结合字幕使用Caption模型生成每个图像的描述。

引用

若使用此数据集进行研究或项目，请引用：

plaintext @inproceedings{liu2024intelligent, title = {Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models}, author = {Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie}, booktitle = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2024}, }

联系方式

如有任何问题，请联系 haoningwu3639@gmail.com 或 liuchang666@sjtu.edu.cn。

搜集汇总

数据集介绍

构建方式

StorySalon数据集的构建过程体现了视觉叙事领域对高质量多模态数据的需求。该数据集通过精心设计的数据处理流程构建，首先从开源PDF和YouTube视频中提取关键帧及其对应字幕，随后检测并移除重复帧以确保内容独特性。进一步地，利用图像分割技术识别文本、人物及头像区域，并剔除仅包含真实人物的帧以增强叙事虚构性。最后，基于分割掩码对帧中的文本、头像和真实手部进行修复处理，形成连贯的视觉叙事序列。这一流程确保了数据在视觉一致性和叙事逻辑上的严谨性。

特点

StorySalon数据集在视觉叙事研究中展现出显著特点，其核心在于融合了多源数据与精细标注。数据集包含从PDF和视频中提取的帧序列，每帧均配有掩码、描述及原始故事叙述，支持对视觉元素的深度解析。通过过滤重复帧和真实人物内容，数据集强化了开放叙事生成所需的虚构性与多样性。此外，提供的元数据文件便于用户根据关键帧列表高效筛选数据，降低了手动处理的复杂度。这些特征共同为视觉故事生成任务提供了丰富且结构化的训练资源。

使用方法

使用StorySalon数据集时，研究者需遵循系统化的步骤以充分利用其多模态特性。用户首先需下载提供的帧、掩码和描述数据，或通过元数据文件获取视频链接并借助youtube-dl工具下载原始视频。随后，利用数据集附带的数据处理流程提取关键帧、字幕并应用修复技术，确保视觉序列的连贯性。对于故事生成任务，可结合标注的描述与叙事文本，训练或评估潜在扩散模型。详细的操作指南可参考相关论文及代码库，以实现对视觉叙事能力的有效探索。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，视觉叙事研究致力于生成连贯且富有想象力的故事序列，以推动人工智能在创造性内容生成方面的发展。StorySalon数据集由上海交通大学等机构的研究团队于2024年构建，作为CVPR会议论文《Intelligent Grimm – Open-ended Visual Storytelling via Latent Diffusion Models》的核心组成部分，该数据集旨在支持开放式的视觉故事生成任务。通过整合从公开PDF及YouTube视频中提取的关键帧、掩码、描述与原始叙事文本，StorySalon为探索潜在扩散模型在叙事生成中的应用提供了丰富资源，显著促进了视觉叙事模型的训练与评估，对推动生成式人工智能在艺术与娱乐领域的创新具有重要影响。

当前挑战

视觉叙事领域长期面临生成故事逻辑连贯性与视觉多样性平衡的挑战，StorySalon数据集针对开放式故事生成问题，需解决叙事序列中时序一致性与内容创造性的复杂权衡。在构建过程中，研究团队遭遇了多重技术障碍：从海量视频中提取高质量关键帧并过滤重复内容，对图像中的文本、人物及手部区域进行精确分割与修复，以及结合字幕信息生成准确图像描述的自动化流程，这些步骤均需高效处理大规模异构数据，确保数据质量与叙事完整性，为数据集的可靠性与实用性奠定了坚实基础。

常用场景

经典使用场景

在视觉叙事与生成式人工智能领域，StorySalon数据集为开放式的视觉故事创作提供了关键支持。该数据集通过整合视频关键帧、掩码、描述及原始叙事文本，构建了一个多模态故事生成平台。其经典应用场景在于训练和评估潜在扩散模型，以生成连贯且富有创意的视觉故事序列，推动从文本到图像的叙事连贯性研究。

实际应用

在实际应用层面，StorySalon数据集可广泛应用于创意内容生成、教育叙事工具以及娱乐产业。例如，在动画制作或游戏开发中，该数据集能够辅助自动生成故事板或视觉场景，提升内容创作效率。同时，它也为个性化故事推荐系统和交互式叙事平台提供了数据基础，推动了人工智能在创意产业中的落地。

衍生相关工作

基于StorySalon数据集，已衍生出多项经典研究工作，尤其是在CVPR 2024上发表的Intelligent Grimm框架。该工作利用潜在扩散模型实现了开放端视觉故事生成，为后续研究设立了新范式。此外，该数据集还激发了多模态故事理解、跨模态对齐以及生成模型可控性等方面的探索，推动了视觉叙事领域的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集