Repurpose-10K

Name: Repurpose-10K
Creator: 东南大学, Opus AI 研究所, 多伦多大学, 布朗大学, 新加坡国立大学
Published: 2024-12-16 11:16:59
License: 暂无描述

arXiv2024-12-16 更新2024-12-14 收录

下载链接：

https://github.com/yongliang-wu/Repurpose

下载链接

链接失效反馈

官方服务：

资源简介：

Repurpose-10K 是一个大规模的视频 repurposing 数据集，由东南大学和 Opus AI 研究所等机构共同创建。该数据集包含超过 11,210 个视频样本和 120,925 个标注片段，旨在解决从长视频中提取短格式视频的任务。数据集的创建过程包括从用户生成的内容中获取标注，并通过多阶段的精细化标注流程确保数据的准确性。Repurpose-10K 主要应用于社交媒体平台的视频重用任务，旨在帮助用户从长视频中提取出适合在短视频平台上发布的片段，解决视频内容重用和编辑的挑战。

Repurpose-10K is a large-scale video repurposing dataset co-created by Southeast University, Opus AI Research Institute and other institutions. It contains over 11,210 video samples and 120,925 annotated segments, targeting the task of extracting short-form videos from long-form videos. The dataset construction process involves obtaining annotations from user-generated content and adopting a multi-stage refined annotation workflow to ensure data accuracy. Primarily applied to video repurposing tasks on social media platforms, it aims to help users extract segments from long-form videos that are suitable for release on short-video platforms, addressing the challenges of video content repurposing and editing.

提供机构：

东南大学, Opus AI 研究所, 多伦多大学, 布朗大学, 新加坡国立大学

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

Repurpose-10K数据集通过利用一个视频重用SaaS平台，从真实用户生成的内容（UGC）中收集注释。每个长视频的注释包括多个片段的开始和结束时间戳，每个片段封装了一个自包含的子主题，如一系列动作或对话交流。为了确保注释的准确性，数据集选择了用户重新编辑的片段，并由内容创作者手动精炼每个片段的开始和结束时间戳，最终形成了包含120,925个精细注释视频片段的数据集。

特点

Repurpose-10K数据集具有以下特点：首先，它包含了超过10,000个视频和120,000个注释片段，涵盖了广泛的用户生成内容，确保了数据的多样性和复杂性。其次，数据集中的视频平均长度为32分钟，适合处理长格式视频的重用任务。此外，数据集还包含了视频的音频和字幕信息，提供了多模态的内容理解支持。

使用方法

Repurpose-10K数据集可用于视频重用任务的研究和模型训练。研究者可以通过该数据集开发和验证视频重用算法，特别是那些需要多模态信息（如音频、视觉和字幕）的模型。数据集的注释提供了精确的时间戳，便于进行分类和回归任务的训练，从而实现从长视频中自动提取和重用短片段的目标。

背景与挑战

背景概述

随着社交媒体平台如Instagram、TikTok和YouTube Shorts的迅速崛起，短视频内容的需求显著增长。尽管视频摘要和亮点检测技术取得了显著进展，但这些方法通常局限于特定领域，且需要对视频内容有深入的理解。为应对这一挑战，Yongliang Wu等人于2024年提出了Repurpose-10K数据集，该数据集包含超过10,000个视频和120,000多个标注片段，旨在解决从长视频到短视频的转换任务。该数据集通过从真实用户生成的内容（UGC）中获取标注，采用两阶段解决方案，确保标注的准确性。Repurpose-10K的提出不仅为视频重用任务提供了强大的基准，还为该领域的研究开辟了新的方向。

当前挑战

Repurpose-10K数据集面临的主要挑战包括：首先，从用户生成内容中获取准确标注的难度，由于非专业标注者可能引入偏差和错误。其次，视频重用任务本身具有复杂性，要求模型能够理解视频内容的语义，并从中提取出适合短视频平台的片段。此外，构建过程中需要处理大量长视频，平均时长为32分钟，这对数据处理和标注工作提出了高要求。最后，多模态信息的融合与对齐也是一个重要挑战，确保音频、视觉和字幕信息能够有效协同工作，以生成高质量的短视频内容。

常用场景

经典使用场景

Repurpose-10K数据集的经典使用场景主要集中在视频重用任务中，旨在将长视频自动转换为适合社交媒体平台的短视频片段。该数据集通过大规模的用户生成内容（UGC）注释，提供了超过10,000个视频和120,000个标注片段，帮助研究者开发和验证视频重用算法。这些算法能够从长视频中提取关键片段，确保生成的短视频既具有吸引力又保持逻辑连贯性，特别适用于Instagram、TikTok等平台的短视频制作。

衍生相关工作

Repurpose-10K数据集的发布催生了一系列相关研究工作，特别是在视频重用和多模态学习领域。例如，基于该数据集的研究者提出了多模态对齐指导模块，有效整合了视频的音频、视觉和字幕信息，提升了视频重用任务的性能。此外，该数据集还启发了其他研究者探索视频重用与视频摘要、亮点检测等任务的结合，推动了视频理解领域的整体发展。

数据集最近研究