How2

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/srvk/how2-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

How2是一个多模态数据集，包含约80,000个教学视频（约2,000小时），配有英文字幕和摘要。约300小时的视频还通过众包翻译成了葡萄牙语，并用于JSALT 2018研讨会。该数据集可用于语音识别、语音摘要、文本摘要及其多模态扩展等任务。

How2 is a multimodal dataset containing approximately 80,000 instructional videos (totaling around 2,000 hours), paired with English subtitles and summaries. Approximately 300 hours of its videos have been crowdsourced into Portuguese, and this subset was utilized in the JSALT 2018 workshop. This dataset can be applied to tasks including speech recognition, speech summarization, text summarization, and their multimodal extensions.

创建时间：

2018-10-28

原始信息汇总

How-2 数据集概述

How-2 是一个多模态数据集，包含约 80,000 个教学视频（约 2,000 小时），配有相应的英文字幕和摘要。其中约 300 小时的视频已通过众包翻译成葡萄牙语，并在 JSALT 2018 研讨会中使用。How-2 训练数据分为 300 小时和 2000 小时两部分，只有前者支持葡萄牙语机器翻译。2000 小时的数据集可用于语音识别、语音摘要、文本摘要及其多模态扩展等任务。

目前已发布以下与 How-2 数据相关的包，以复现我们的结果并鼓励进一步研究：

ASR (300h)：包含 300 小时的音频 fbank+pitch 特征，格式为 Kaldi scp/ark。
E2E Summarization + ASR (2000h)：包含 2000 小时的音频 fbank+pitch 特征、转录文本和摘要，格式为 Kaldi scp/ark。
Visual features：包含用于机器翻译和自动语音识别的视频动作特征，格式为 numpy 数组。
English Transcript：包含 How2 的英文文本。
Portuguese Machine Translations：包含葡萄牙语众包文本。
English Abstractive Summaries：包含摘要文本。
Visual features for Summarization：包含用于摘要的视频动作特征，格式为 numpy 数组。
Object Grounding Features：包含对象定位的测试和开发集。

数据集使用需引用以下论文：

@inproceedings{sanabria18how2, title = {{How2:} A Large-scale Dataset For Multimodal Language Understanding}, author = {Sanabria, Ramon and Caglayan, Ozan and Palaskar, Shruti and Elliott, Desmond and Barrault, Lo"ic and Specia, Lucia and Metze, Florian}, booktitle = {Proceedings of the Workshop on Visually Grounded Interaction and Language (ViGIL)}, year = {2018}, organization={NeurIPS}, url = {http://arxiv.org/abs/1811.00347} }

此外，How-2 数据集已用于端到端语音摘要，并发布了 43 维 fbank+pitch 特征以支持此应用。相关研究可参考 ESPNet Recipe 和论文。使用此数据集进行语音摘要研究时，请引用以下论文：

@inproceedings{Sharma2022, author={Sharma, Roshan and Palaskar, Shruti and Black, Alan W and Metze, Florian}, booktitle={ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={End-to-End Speech Summarization Using Restricted Self-Attention}, year={2022}, volume={}, number={}, pages={8072-8076}, doi={10.1109/ICASSP43922.2022.9747320} }

数据集的许可证信息可在每个视频的 .info.json 文件中找到。所有视频均在标准 YouTube 许可证下提供。除非另有说明，本仓库的内容根据 Creative Commons BY-SA 4.0（署名-相同方式共享）许可证（适用于数据类内容）和/或 BSD-2-Clause 许可证（适用于软件类内容）提供。

搜集汇总

数据集介绍

构建方式

How-2数据集的构建基于大规模的多模态数据收集与处理，涵盖约80,000个教学视频，总时长约2,000小时。这些视频附带了英文字幕和摘要，其中约300小时的视频还通过众包翻译成葡萄牙语。数据集的构建过程中，音频特征以Kaldi scp/ark格式存储，视频特征则以numpy数组形式保存，确保了数据的多模态一致性和可用性。此外，数据集还包含了对象定位特征，进一步增强了其在多模态理解任务中的应用潜力。

特点

How-2数据集的显著特点在于其多模态性质，结合了音频、视频和文本数据，适用于多种任务如语音识别、文本摘要和多模态扩展。数据集的多样性和规模使其成为研究多模态语言理解的理想选择。此外，数据集中的部分内容已翻译成葡萄牙语，支持跨语言研究，特别是机器翻译任务。

使用方法

How-2数据集可用于多种研究任务，包括但不限于语音识别、文本摘要、多模态语言理解和机器翻译。用户可以通过提供的Kaldi格式音频特征和numpy数组视频特征进行数据处理和模型训练。对于特定的研究需求，如端到端语音摘要，数据集还提供了专门的特征集和相关研究文献，便于用户复现和扩展研究成果。

背景与挑战

背景概述

How-2数据集是一个多模态数据集，由大约80,000个教学视频（约2,000小时）组成，这些视频附带有英文字幕和摘要。其中约300小时的视频通过众包翻译成葡萄牙语，并在2018年JSALT研讨会上使用。该数据集的核心研究问题涉及多模态语言理解，包括语音识别、语音摘要、文本摘要及其多模态扩展。How-2数据集由Ramon Sanabria等人于2018年创建，主要研究人员来自多个机构，如卡内基梅隆大学和约翰霍普金斯大学。该数据集的发布对多模态语言理解领域产生了重要影响，尤其是在语音和视频数据的联合处理方面。

当前挑战

How-2数据集在构建过程中面临多项挑战。首先，数据的多模态特性要求在音频、视频和文本之间建立有效的关联，这增加了数据处理的复杂性。其次，视频内容的多样性和质量不一，导致数据预处理的难度增加。此外，如何确保翻译和摘要的准确性也是一个重要挑战，尤其是在使用众包翻译时。最后，数据集的规模和多样性使得存储和计算资源的消耗成为一个显著问题，尤其是在处理大规模视频和音频数据时。

常用场景

经典使用场景

How-2数据集因其丰富的多模态信息，成为多模态语言理解领域的经典研究对象。该数据集包含约80,000个教学视频，涵盖约2,000小时的视频内容，并附有英语字幕和摘要。这些资源不仅支持语音识别、语音摘要生成等传统任务，还为多模态任务如文本摘要和视觉特征提取提供了宝贵的数据支持。

衍生相关工作

基于How-2数据集，研究者们开展了多项经典工作。例如，Sharma等人利用该数据集开发了端到端的语音摘要生成模型，显著提升了摘要生成的准确性和效率。此外，该数据集还启发了多模态机器翻译和视觉特征提取的研究，推动了多模态学习在自然语言处理领域的广泛应用。

数据集最近研究