five

zeqianli/HowToStep

收藏
Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zeqianli/HowToStep
下载链接
链接失效反馈
官方服务:
资源简介:
HowToStep是一个自动生成的大规模高质量数据集,通过LLM将ASR转录转换为描述性步骤,并通过两阶段确定程序将步骤与视频对齐。该数据集将HTM-370K的原始转录转换为约4M有序指令步骤,并为近340K视频提供了开始/结束时间戳。每个视频平均有10.6个步骤,每个步骤平均有8.0个单词。数据实例包括视频ID、步骤的开始/结束时间和描述性步骤文本。

HowToStep是一个自动生成的大规模高质量数据集,通过LLM将ASR转录转换为描述性步骤,并通过两阶段确定程序将步骤与视频对齐。该数据集将HTM-370K的原始转录转换为约4M有序指令步骤,并为近340K视频提供了开始/结束时间戳。每个视频平均有10.6个步骤,每个步骤平均有8.0个单词。数据实例包括视频ID、步骤的开始/结束时间和描述性步骤文本。
提供机构:
zeqianli
原始信息汇总

HowToStep 数据集概述

数据集简介

HowToStep 是一个自动生成的大规模高质量数据集,通过提示大型语言模型(LLM)将自动语音识别(ASR)转录文本转换为描述性步骤,并通过两阶段确定程序将步骤与视频对齐。

数据集分析

HowToStep 将原始转录文本(来自 HTM-370K 数据集)转换为约 400 万个有序的教学步骤,每个步骤包含开始和结束时间戳,涉及近 34 万个视频。平均每个视频包含 10.6 个步骤,每个步骤平均包含 8.0 个单词。

数据下载

数据集以 tar.gz 文件格式提供。解压后,每个文件夹包含以 vid.pth 命名的文件。

数据实例

json { "vid": "_sAn5Pp9GxQ", "start": [33, 36, 42, ..., 398], "end": [41, 44, 50, ..., 406], "text": [ "Add pasta to boiling water.", "Keep boiling until pasta is al dente.", "Quinoa pasta, corn pasta, or brown rice pasta.", ..., "Check out the creators quick prep meal plan program for more recipe ideas." ] }

数据字段

  • vid (str): 视频的 ID。
  • start/end (List of int): 步骤在视频中的开始/结束时间。
  • text (List of str): 由大型语言模型生成的描述性步骤。

引用

如果您在工作中使用了 HowToStep 数据集,请考虑引用以下文献: bibtex @article{li2023strong, title={A Strong Baseline for Temporal Video-Text Alignment}, author={Li, Zeqian and Chen, Qirui and Han, Tengda and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2312.14055}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视频理解与自然语言处理交叉领域,HowToStep数据集通过自动化流程构建而成。该流程以HTM-370K数据集的原始自动语音识别转录文本为基础,利用大型语言模型将其转化为结构化的指令步骤。随后,通过一个两阶段的判定程序,将这些生成的文本步骤与视频中的时间戳进行精确对齐,最终形成包含起止时间标记的步骤描述。经过筛选,该数据集涵盖了约34万个视频,生成了近400万条有序指令步骤,为视频与文本的时序对齐研究提供了大规模、高质量的标注资源。
特点
HowToStep数据集展现出显著的大规模与高质量特性。其核心特点在于将视频内容解构为平均每视频10.6个步骤的细致描述,每个步骤平均由8.0个单词构成,确保了指令的清晰性与可操作性。数据集不仅提供了丰富的文本描述,更关键的是为每一步骤标注了精确的视频起止时间戳,实现了文本指令与视频片段的细粒度时序对齐。这种结构与对齐方式,为模型理解视频中的动作序列与语义连贯性提供了坚实的基础。
使用方法
该数据集主要服务于视频-文本对齐及相关多模态学习任务的研究与应用。使用者可通过提供的压缩文件获取数据,每个数据实例以字典形式组织,包含视频ID、步骤起止时间戳列表以及对应的描述性文本列表。研究人员可直接加载这些时序对齐的步骤数据,用于训练或评估视频定位、步骤预测、视频字幕生成等模型。数据集的标准化格式便于集成到现有机器学习流程中,为探索视频内容的结构化理解与生成提供了直接可用的基准资源。
背景与挑战
背景概述
在视频理解与多模态学习领域,如何精准对齐视频内容与文本描述是核心研究问题之一。HowToStep数据集由上海交通大学等机构的研究团队于2023年创建,旨在通过自动生成大规模、高质量的时序对齐数据,推动视频-文本对齐任务的发展。该数据集基于HTM-370K的自动语音识别转录,利用大语言模型将其转化为有序的指令步骤,并通过两阶段判定程序与视频时间戳对齐,为视频段落检索、步骤定位等任务提供了重要基准。
当前挑战
HowToStep数据集致力于解决视频-文本时序对齐的挑战,其核心在于如何从嘈杂的语音转录中提取结构化步骤,并实现与视频片段的精确匹配。构建过程中的挑战包括:确保大语言模型生成的步骤描述在语义上准确且连贯;设计有效的两阶段对齐机制以克服视频与文本间的模态差异;以及处理原始数据中的噪声,保证最终标注的时间戳可靠性。这些挑战共同指向多模态表示学习与时序推理的难点。
常用场景
经典使用场景
在视频理解与多模态学习领域,HowToStep数据集以其大规模、高质量的时序对齐特性,为视频文本对齐任务提供了经典应用场景。该数据集通过将自动语音识别转录文本转化为结构化的描述性步骤,并精确标注视频中的起止时间,使得研究者能够训练模型以理解视频内容与文本指令之间的时序对应关系,从而推动视频语义分割、步骤识别等任务的进展。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在视频文本对齐模型的优化与扩展。例如,基于HowToStep的基线方法促进了时序定位网络的设计,推动了多模态预训练技术在指令视频理解中的应用,并为后续数据集如HTM-Align的构建提供了方法论借鉴,持续影响着视频语言交互研究的前沿方向。
数据集最近研究
最新研究方向
在视频理解与多模态学习领域,HowToStep数据集以其自动生成的大规模高质量时序对齐特性,正推动着前沿研究向更精细化的视频-文本对齐任务迈进。该数据集通过大语言模型将ASR转录本转化为结构化步骤描述,并采用两阶段判定机制实现步骤与视频片段的精准时序匹配,为视频内容解析提供了强基准。当前研究热点集中于利用此类对齐数据提升跨模态检索、视频摘要生成及人机交互系统的性能,尤其在教育科技与智能助手应用中展现出深远影响,促进了时序推理模型在真实场景下的泛化能力与可解释性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作