zeqianli/HowToStep
收藏HowToStep 数据集概述
数据集简介
HowToStep 是一个自动生成的大规模高质量数据集,通过提示大型语言模型(LLM)将自动语音识别(ASR)转录文本转换为描述性步骤,并通过两阶段确定程序将步骤与视频对齐。
数据集分析
HowToStep 将原始转录文本(来自 HTM-370K 数据集)转换为约 400 万个有序的教学步骤,每个步骤包含开始和结束时间戳,涉及近 34 万个视频。平均每个视频包含 10.6 个步骤,每个步骤平均包含 8.0 个单词。
数据下载
数据集以 tar.gz 文件格式提供。解压后,每个文件夹包含以 vid.pth 命名的文件。
数据实例
json { "vid": "_sAn5Pp9GxQ", "start": [33, 36, 42, ..., 398], "end": [41, 44, 50, ..., 406], "text": [ "Add pasta to boiling water.", "Keep boiling until pasta is al dente.", "Quinoa pasta, corn pasta, or brown rice pasta.", ..., "Check out the creators quick prep meal plan program for more recipe ideas." ] }
数据字段
vid(str): 视频的 ID。start/end(List of int): 步骤在视频中的开始/结束时间。text(List of str): 由大型语言模型生成的描述性步骤。
引用
如果您在工作中使用了 HowToStep 数据集,请考虑引用以下文献: bibtex @article{li2023strong, title={A Strong Baseline for Temporal Video-Text Alignment}, author={Li, Zeqian and Chen, Qirui and Han, Tengda and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2312.14055}, year={2023} }




