zeqianli/HowToStep

Name: zeqianli/HowToStep
Creator: zeqianli
Published: 2024-07-16 05:34:26
License: 暂无描述

Hugging Face2024-07-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zeqianli/HowToStep

下载链接

链接失效反馈

官方服务：

资源简介：

HowToStep是一个自动生成的大规模高质量数据集，通过LLM将ASR转录转换为描述性步骤，并通过两阶段确定程序将步骤与视频对齐。该数据集将HTM-370K的原始转录转换为约4M有序指令步骤，并为近340K视频提供了开始/结束时间戳。每个视频平均有10.6个步骤，每个步骤平均有8.0个单词。数据实例包括视频ID、步骤的开始/结束时间和描述性步骤文本。

提供机构：

zeqianli

原始信息汇总

HowToStep 数据集概述

数据集简介

HowToStep 是一个自动生成的大规模高质量数据集，通过提示大型语言模型（LLM）将自动语音识别（ASR）转录文本转换为描述性步骤，并通过两阶段确定程序将步骤与视频对齐。

数据集分析

HowToStep 将原始转录文本（来自 HTM-370K 数据集）转换为约 400 万个有序的教学步骤，每个步骤包含开始和结束时间戳，涉及近 34 万个视频。平均每个视频包含 10.6 个步骤，每个步骤平均包含 8.0 个单词。

数据下载

数据集以 tar.gz 文件格式提供。解压后，每个文件夹包含以 vid.pth 命名的文件。

数据实例

json { "vid": "_sAn5Pp9GxQ", "start": [33, 36, 42, ..., 398], "end": [41, 44, 50, ..., 406], "text": [ "Add pasta to boiling water.", "Keep boiling until pasta is al dente.", "Quinoa pasta, corn pasta, or brown rice pasta.", ..., "Check out the creators quick prep meal plan program for more recipe ideas." ] }

数据字段

vid (str): 视频的 ID。
start/end (List of int): 步骤在视频中的开始/结束时间。
text (List of str): 由大型语言模型生成的描述性步骤。

引用

如果您在工作中使用了 HowToStep 数据集，请考虑引用以下文献： bibtex @article{li2023strong, title={A Strong Baseline for Temporal Video-Text Alignment}, author={Li, Zeqian and Chen, Qirui and Han, Tengda and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2312.14055}, year={2023} }

搜集汇总

数据集介绍

构建方式

在视频理解与自然语言处理交叉领域，HowToStep数据集通过自动化流程构建而成。该流程以HTM-370K数据集的原始自动语音识别转录文本为基础，利用大型语言模型将其转化为结构化的指令步骤。随后，通过一个两阶段的判定程序，将这些生成的文本步骤与视频中的时间戳进行精确对齐，最终形成包含起止时间标记的步骤描述。经过筛选，该数据集涵盖了约34万个视频，生成了近400万条有序指令步骤，为视频与文本的时序对齐研究提供了大规模、高质量的标注资源。

特点

HowToStep数据集展现出显著的大规模与高质量特性。其核心特点在于将视频内容解构为平均每视频10.6个步骤的细致描述，每个步骤平均由8.0个单词构成，确保了指令的清晰性与可操作性。数据集不仅提供了丰富的文本描述，更关键的是为每一步骤标注了精确的视频起止时间戳，实现了文本指令与视频片段的细粒度时序对齐。这种结构与对齐方式，为模型理解视频中的动作序列与语义连贯性提供了坚实的基础。

使用方法

该数据集主要服务于视频-文本对齐及相关多模态学习任务的研究与应用。使用者可通过提供的压缩文件获取数据，每个数据实例以字典形式组织，包含视频ID、步骤起止时间戳列表以及对应的描述性文本列表。研究人员可直接加载这些时序对齐的步骤数据，用于训练或评估视频定位、步骤预测、视频字幕生成等模型。数据集的标准化格式便于集成到现有机器学习流程中，为探索视频内容的结构化理解与生成提供了直接可用的基准资源。

背景与挑战

背景概述

在视频理解与多模态学习领域，如何精准对齐视频内容与文本描述是核心研究问题之一。HowToStep数据集由上海交通大学等机构的研究团队于2023年创建，旨在通过自动生成大规模、高质量的时序对齐数据，推动视频-文本对齐任务的发展。该数据集基于HTM-370K的自动语音识别转录，利用大语言模型将其转化为有序的指令步骤，并通过两阶段判定程序与视频时间戳对齐，为视频段落检索、步骤定位等任务提供了重要基准。

当前挑战

HowToStep数据集致力于解决视频-文本时序对齐的挑战，其核心在于如何从嘈杂的语音转录中提取结构化步骤，并实现与视频片段的精确匹配。构建过程中的挑战包括：确保大语言模型生成的步骤描述在语义上准确且连贯；设计有效的两阶段对齐机制以克服视频与文本间的模态差异；以及处理原始数据中的噪声，保证最终标注的时间戳可靠性。这些挑战共同指向多模态表示学习与时序推理的难点。

常用场景

经典使用场景

在视频理解与多模态学习领域，HowToStep数据集以其大规模、高质量的时序对齐特性，为视频文本对齐任务提供了经典应用场景。该数据集通过将自动语音识别转录文本转化为结构化的描述性步骤，并精确标注视频中的起止时间，使得研究者能够训练模型以理解视频内容与文本指令之间的时序对应关系，从而推动视频语义分割、步骤识别等任务的进展。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在视频文本对齐模型的优化与扩展。例如，基于HowToStep的基线方法促进了时序定位网络的设计，推动了多模态预训练技术在指令视频理解中的应用，并为后续数据集如HTM-Align的构建提供了方法论借鉴，持续影响着视频语言交互研究的前沿方向。

数据集最近研究