GUIDE

Name: GUIDE
Creator: 哈尔滨工业大学，中国哈尔滨；鹏城实验室，中国深圳；快手科技，中国北京
Published: 2024-06-26 18:24:00
License: 暂无描述

arXiv2024-06-26 更新2024-06-28 收录

下载链接：

https://guide-ijcai2024.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

GUIDE数据集是一个专注于日常任务教学视频理解的数据集，由哈尔滨工业大学、鹏城实验室和快手科技共同创建。该数据集包含3500个视频，覆盖560个日常任务，涉及8个生活领域。每个任务都配有指导性指南，帮助学习者更系统地理解任务。数据集的创建过程包括视频收集、自动标注和人工标注三个阶段，确保数据的质量和实用性。GUIDE数据集的应用领域广泛，旨在通过提供结构化的指导步骤，帮助初学者更有效地学习新任务，解决教学视频中步骤繁琐、不系统的问题。

The GUIDE Dataset is a dataset focused on understanding instructional videos for daily tasks, co-created by Harbin Institute of Technology, Peng Cheng Laboratory and Kuaishou Technology. It contains 3500 videos covering 560 daily tasks across 8 life domains. Each task is paired with instructional guides to help learners understand the task more systematically. The creation of the GUIDE Dataset includes three stages: video collection, automatic annotation and manual annotation, which ensure the quality and practicality of the dataset. The GUIDE Dataset has a wide range of application scenarios, aiming to provide structured instructional steps to help beginners learn new tasks more effectively, addressing the issues of cumbersome and unstructured steps in existing instructional videos.

提供机构：

哈尔滨工业大学，中国哈尔滨；鹏城实验室，中国深圳；快手科技，中国北京

创建时间：

2024-06-26

搜集汇总

数据集介绍

构建方式

GUIDE数据集的构建过程分为三个阶段：视频收集、自动标注和手动标注。首先，我们从8个日常生活领域收集了560个教学任务的3.5K视频。然后，我们使用自动标注框架对视频进行标注，包括生成具体步骤和提取指导步骤。最后，我们进行手动标注，以确保标注的准确性和一致性。

特点

GUIDE数据集包含560个教学任务，每个任务平均包含6.2个相关视频，总计3.5K视频。每个视频被分割成平均4.3个具体步骤，每个步骤都有对应的描述和时戳。此外，每个任务还包含一组指导步骤，代表所有相关视频的共同模式。GUIDE数据集的特点在于它提供了任务级别的指导标注和视频级别的系统具体步骤标注，有助于更好地理解教学视频。

使用方法

GUIDE数据集可用于评估模型对教学视频的理解能力。它包含三个子任务：步骤字幕生成、指导总结和指导字幕生成。步骤字幕生成任务要求模型根据视频生成具体步骤的字幕。指导总结任务要求模型从相关视频中挖掘共同模式并总结出指导。指导字幕生成任务要求模型在指导的指导下生成具体步骤的字幕。GUIDE数据集还可用于人类评估，以评估模型在实际场景中的应用潜力。

背景与挑战

背景概述

随着互联网上教学视频的激增，如何有效理解和学习这些视频成为了一个重要的问题。现有的教学视频数据集通常只关注视频层面的具体步骤，缺乏任务层面的经验指导，这对于初学者来说是一个挑战。为了解决这些问题，哈尔滨工业大学、鹏城实验室和快手科技的研究人员联合推出了GUIDE数据集，该数据集包含3.5K个与日常生活相关的560个教学任务的560个视频。GUIDE数据集为每个教学任务提供了一个指导，代表了所有相关视频的共同模式，并在此基础上标注了系统的具体步骤，包括相关指导步骤、具体步骤描述和时间戳。GUIDE数据集的提出，为教学视频理解提供了一个更好的基准。

当前挑战

GUIDE数据集面临着一系列挑战。首先，如何从多个视频中提取准确的指导是一个挑战。其次，如何生成清晰、易学且系统的具体步骤也是一个挑战。此外，视频基础模型在视觉模态上存在瓶颈，需要更专业的视觉编码器和视觉语言桥梁来更好地表示时间过程。GUIDE数据集的提出，为解决这些问题提供了重要的参考和启示。

常用场景

经典使用场景

GUIDE数据集在指令性视频理解领域具有广泛的应用前景。它包含3.5K个视频，涵盖560个与日常生活相关的任务，并针对每个任务提供了一套指导性注释，这些注释代表了一系列视频中共有的模式。这使得GUIDE数据集成为一个理想的选择，用于评估和训练模型在理解和生成指令性视频步骤方面的能力。

解决学术问题

GUIDE数据集解决了现有指令性视频数据集中缺乏任务级指导的问题。这些数据集通常只关注视频级别的具体步骤，而忽略了任务级别的经验性指导，导致初学者在学习新任务时因缺乏相关经验而感到困难。GUIDE数据集通过提供每个任务的指导性注释，为初学者提供了一个清晰的指导框架，有助于他们更有效地学习新任务。

衍生相关工作

GUIDE数据集的发布推动了指令性视频理解领域的研究。它为研究人员提供了一个新的基准数据集，用于评估和比较不同模型的性能。此外，GUIDE数据集还启发了许多相关的工作，例如，一些研究人员使用GUIDE数据集来开发新的模型和算法，以更准确地理解和生成指令性视频步骤。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集