Openstory++

arXiv2024-08-07 更新2024-08-09 收录

下载链接：

https://openstorypp.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Openstory++是由华南理工大学、西湖大学等机构联合创建的大规模视觉故事叙述数据集，旨在通过实例级别的视觉分割注释增强故事连续性。该数据集包含超过1亿条高质量、完全注释的样本，特别强调在开放领域视频中提取关键帧，使用视觉-语言模型生成描述性字幕，并通过大型语言模型确保叙事连贯性。Openstory++不仅提供了丰富的开放领域资源，还通过自动化字幕生成和高分辨率图像，促进了多模态生成模型的发展，特别是在复杂叙事生成和开放领域环境中的应用。

Openstory++ is a large-scale visual storytelling dataset jointly created by South China University of Technology, Westlake University and other institutions, aiming to enhance story continuity through instance-level visual segmentation annotations. This dataset contains over 100 million high-quality, fully annotated samples, with a special focus on extracting key frames from open-domain videos, generating descriptive captions using vision-language models, and ensuring narrative coherence via large language models. Openstory++ not only provides abundant open-domain resources, but also promotes the development of multimodal generative models through automated caption generation and high-resolution images, especially for applications in complex narrative generation and open-domain scenarios.

提供机构：

华南理工大学西湖大学中国科学院自动化研究所基础模型研究中心阿卜杜拉国王科技大学

创建时间：

2024-08-07

搜集汇总

数据集介绍

构建方式

Openstory++ 数据集的构建方式包括从开放领域的视频中提取关键帧，并通过视觉语言模型生成描述性字幕。这些字幕随后由大型语言模型进行润色，以确保叙事的连贯性。此外，数据集中的图像还包含实体级别的视觉分割注释，以便于训练关注实例的故事可视化模型。整个流程使用多种模型和技术，包括 DINOv2 进行关键帧提取和去重，BLIP2 进行单图像字幕生成，YOLO-World 和 EfficientViT-SAM 进行实体检测和分割。

使用方法

使用 Openstory++ 数据集时，首先需要从数据集中提取关键帧和相应的字幕。然后，可以使用这些字幕和图像来训练多模态生成模型，特别是关注实例的故事可视化模型。此外，Openstory++ 数据集还可以用于开发定制训练方法，强调实体中心的图像-文本生成，以确保模型能够有效地交织视觉和文本信息。最后，Openstory++ 数据集可以用于评估模型在长多模态上下文中的图像生成任务的能力，包括保持背景、风格和实例在给定上下文中的连贯性。

背景与挑战

背景概述

Openstory++数据集的创建是为了解决现有图像生成模型在处理长文本描述时，难以保持多个实例的一致性的问题。该数据集由来自华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和沙特国王阿卜杜拉科技大学的研究人员合作开发，于2024年8月7日首次在arXiv上发布。Openstory++数据集通过结合图像和文本的实例级标注，为训练多模态生成模型提供了丰富的资源，特别适合训练关注实例的故事可视化模型。该数据集的创建不仅解决了现有训练数据集中缺乏细粒度实例特征标注的问题，还通过开发定制的训练方法，强调了以实体为中心的图像-文本生成，确保模型能够有效地融合视觉和文本信息。Openstory++数据集通过从开放域视频中提取关键帧，并使用视觉-语言模型生成描述性字幕，然后由大型语言模型进行润色以保持叙事连贯性，从而简化了关键帧提取过程。此外，Openstory++数据集还提供了自动字幕、为实例计数定制的高分辨率图像以及广泛的帧序列，以保持时间一致性。Openstory++数据集的推出为开放域视觉故事讲述领域的研究提供了强大的支持，并推动了能够熟练生成和解释复杂叙事的模型的发展。

当前挑战

Openstory++数据集和相关模型面临着一些挑战。首先，现有图像生成模型在处理长文本描述时，难以保持多个实例的一致性，这在开放域数据集中尤为突出。其次，构建Openstory++数据集的过程中，研究人员需要克服自动字幕生成、高分辨率图像定制和广泛帧序列生成等挑战。为了解决这些问题，研究人员开发了一种定制的训练方法，该方法强调以实体为中心的图像-文本生成，并通过使用大型语言模型来润色描述性字幕，以确保叙事连贯性。此外，Openstory++数据集的创建还引入了Cohere-Bench基准框架，该框架能够评估在提供长多模态上下文时图像生成任务的能力，包括保持背景、风格和实例在给定上下文中的连贯性。Cohere-Bench框架的引入填补了现有基准在多模态生成方面的关键空白，为开发能够熟练生成和解释复杂叙事的模型提供了新的评价标准。

常用场景

经典使用场景

Openstory++ 数据集主要被用于训练多模态生成模型，特别是那些需要处理开放域视频中的关键帧提取和故事叙述连续性的模型。该数据集通过提供实例级的视觉分割标注，使得模型能够学习如何有效地将视觉和文本信息交织在一起，从而生成高质量的故事叙述。Openstory++ 的一个经典使用场景是训练能够理解并生成开放域环境中复杂叙事的模型。

解决学术问题

Openstory++ 数据集解决了现有训练数据集中缺乏细粒度实例特征标注的问题，这使得现有的图像生成模型在处理长上下文时无法保持多个实例的一致性。Openstory++ 通过提供实例级的视觉分割标注，为训练实例聚焦的故事可视化模型提供了丰富的资源，填补了开放域数据集中叙事和时序动态的空白。此外，Openstory++ 还提供了一个名为 Cohere-Bench 的基准框架，用于评估在提供长多模态上下文时图像生成任务的能力，包括保持背景、风格和实例一致性的能力。

实际应用

Openstory++ 数据集的实际应用场景包括但不限于开放域视频中的关键帧提取、故事叙述连续性、多模态生成模型的训练等。该数据集可以用于开发能够自动生成高质量视觉故事的模型，这些故事可以在电影、电视剧、广告等领域中得到应用。此外，Openstory++ 还可以用于开发能够理解并生成开放域环境中复杂叙事的模型，这些模型可以用于虚拟现实、增强现实、游戏开发等领域。

数据集最近研究