How2
收藏How-2 数据集概述
How-2 是一个多模态数据集,包含约 80,000 个教学视频(约 2,000 小时),配有相应的英文字幕和摘要。其中约 300 小时的视频已通过众包翻译成葡萄牙语,并在 JSALT 2018 研讨会中使用。How-2 训练数据分为 300 小时和 2000 小时两部分,只有前者支持葡萄牙语机器翻译。2000 小时的数据集可用于语音识别、语音摘要、文本摘要及其多模态扩展等任务。
目前已发布以下与 How-2 数据相关的包,以复现我们的结果并鼓励进一步研究:
- ASR (300h):包含 300 小时的音频 fbank+pitch 特征,格式为 Kaldi scp/ark。
- E2E Summarization + ASR (2000h):包含 2000 小时的音频 fbank+pitch 特征、转录文本和摘要,格式为 Kaldi scp/ark。
- Visual features:包含用于机器翻译和自动语音识别的视频动作特征,格式为 numpy 数组。
- English Transcript:包含 How2 的英文文本。
- Portuguese Machine Translations:包含葡萄牙语众包文本。
- English Abstractive Summaries:包含摘要文本。
- Visual features for Summarization:包含用于摘要的视频动作特征,格式为 numpy 数组。
- Object Grounding Features:包含对象定位的测试和开发集。
数据集使用需引用以下论文:
@inproceedings{sanabria18how2, title = {{How2:} A Large-scale Dataset For Multimodal Language Understanding}, author = {Sanabria, Ramon and Caglayan, Ozan and Palaskar, Shruti and Elliott, Desmond and Barrault, Lo"ic and Specia, Lucia and Metze, Florian}, booktitle = {Proceedings of the Workshop on Visually Grounded Interaction and Language (ViGIL)}, year = {2018}, organization={NeurIPS}, url = {http://arxiv.org/abs/1811.00347} }
此外,How-2 数据集已用于端到端语音摘要,并发布了 43 维 fbank+pitch 特征以支持此应用。相关研究可参考 ESPNet Recipe 和 论文。使用此数据集进行语音摘要研究时,请引用以下论文:
@inproceedings{Sharma2022, author={Sharma, Roshan and Palaskar, Shruti and Black, Alan W and Metze, Florian}, booktitle={ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={End-to-End Speech Summarization Using Restricted Self-Attention}, year={2022}, volume={}, number={}, pages={8072-8076}, doi={10.1109/ICASSP43922.2022.9747320} }
数据集的许可证信息可在每个视频的 .info.json 文件中找到。所有视频均在标准 YouTube 许可证下提供。除非另有说明,本仓库的内容根据 Creative Commons BY-SA 4.0(署名-相同方式共享)许可证(适用于数据类内容)和/或 BSD-2-Clause 许可证(适用于软件类内容)提供。




