Awiny/Howto-Interlink7M
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Awiny/Howto-Interlink7M
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# Howto-Interlink7M
## 📙 Overview
Howto-Interlink7M presents a unique interleaved video-text dataset, carefully derived from the raw video content of [Howto100M](https://www.di.ens.fr/willow/research/howto100m/).
<img src="howto_interlink7m_ppl.png" width="75%" height="75%">
In the creation of this dataset, we turn **a long video into a vision-text interleaved documents** by BLIP2 (Img Captioner), GRIT (Img Detector), Whisper (ASR). Similar to [VLog](https://github.com/showlab/VLog).
Then, we employed the **GPT-4** for an extensive **7 million** high-quality pretraining data.
During this process, we meticulously filtered out clips containing sensitive or low-quality content.
<img src="https://cdn-uploads.huggingface.co/production/uploads/64440be5af034cdfd69ca3a7/tCl0r7zasZwwV1qJF1OJN.png" width="50%" height="50%">
## 📊 Statistics
The statictis are listed below:
| Split | Samples | Average Clips | Average Clip Length | Average Document Tokens |
|---|---|---|---| --- |
| Howto-Interlink7M_subset_w_all_clips_train.tsv | 276711 | 8.4 | 49.8 | 460.3 |
| Howto-Interlink7M_subset_w_all_clips_val.tsv | 30746 | 8.4 | 49.8 | 460.2 |
| Howto-Interlink7M_subset_w_sampled_clips_train.tsv | 660827 | 5.8 | 47.2 |319.4 |
| Howto-Interlink7M_sbset_w_sampled_clips_val.tsv| 73426| 5.8 | 47.2 | 319.8 |
|All| 1041710| 6.6 | 48.0 | 361.0|
## 🎨 Visualization

Please see [Youtube](https://www.youtube.com/watch?v=z3uOI6oInto) for more examples.
## 🏋️ Training
Please refer to code [cosmo](https://github.com/showlab/cosmo/) for training details.
## Download Source Video
### 1. Download the README and All-in-One zip file:
On the official website [HowTo100M](https://www.di.ens.fr/willow/research/howto100m/), locate the download links for the README and the All-in-One zip file.
Extract the contents of the All-in-One zip file:
### 2. Inside the extracted folder, you should find the HowTo100M_v1.csv file.
### 3. In the CSV file, you will find a column named "video_id" which contains unique identifiers for each video.
You can use youtube-dl or similar tools to download the videos using the video IDs listed in the CSV file.
## 🎓 Citation
```
@article{wang2024cosmo,
title={COSMO: Contrastive Streamlined Multimodal Model with Interleaved Pre-Training},
author={Wang, Alex Jinpeng and Li, Linjie and Lin, Kevin Qinghong and Wang Jianfeng and Lin, Kevin and Yang, Zhengyuan and Wang, Lijuan and Shou, Mike Zheng},
journal={arXiv preprint arXiv:2401.00849},
year={2024}
}
```
--- 许可证:Apache-2.0 ---
# Howto-Interlink7M
## 📙 概述
Howto-Interlink7M 是一款独特的交错式视频-文本数据集,其全部素材均源自 [Howto100M](https://www.di.ens.fr/willow/research/howto100m/) 的原始视频内容。
<img src="howto_interlink7m_ppl.png" width="75%" height="75%">
在本数据集的构建流程中,我们借助**BLIP2(图像字幕模型)**、**GRIT(图像检测模型)**与**Whisper(自动语音识别,Automatic Speech Recognition)**,将长视频转换为视觉-文本交错文档,该构建思路与 [VLog](https://github.com/showlab/VLog) 一脉相承。
随后,我们使用**GPT-4**生成了总计700万条高质量预训练数据。
在此过程中,我们会严格过滤包含敏感内容或低质量素材的视频片段。
<img src="https://cdn-uploads.huggingface.co/production/uploads/64440be5af034cdfd69ca3a7/tCl0r7zasZwwV1qJF1OJN.png" width="50%" height="50%">
## 📊 统计信息
数据集的统计信息如下:
| 数据集划分 | 样本量 | 平均片段数 | 平均片段时长 | 平均文档Token数 |
|---|---|---|---|---|
| Howto-Interlink7M_subset_w_all_clips_train.tsv | 276711 | 8.4 | 49.8 | 460.3 |
| Howto-Interlink7M_subset_w_all_clips_val.tsv | 30746 | 8.4 | 49.8 | 460.2 |
| Howto-Interlink7M_subset_w_sampled_clips_train.tsv | 660827 | 5.8 | 47.2 | 319.4 |
| Howto-Interlink7M_subset_w_sampled_clips_val.tsv | 73426 | 5.8 | 47.2 | 319.8 |
| 总计 | 1041710 | 6.6 | 48.0 | 361.0 |
## 🎨 可视化

更多示例可参阅 [Youtube](https://www.youtube.com/watch?v=z3uOI6oInto)。
## 🏋️ 训练
训练细节请参阅代码仓库 [cosmo](https://github.com/showlab/cosmo/)。
## 📥 原始视频下载
### 1. 下载README文档与全量压缩包
前往官方网站 [HowTo100M](https://www.di.ens.fr/willow/research/howto100m/),获取README文档与全量压缩包的下载链接,解压该全量压缩包。
### 2. 在解压后的文件夹中,你将找到 HowTo100M_v1.csv 文件。
### 3. 在该CSV文件中,存在一个名为`video_id`的列,其中包含每个视频的唯一标识符。你可借助`youtube-dl`或同类工具,通过CSV文件中列出的视频ID下载对应视频。
## 🎓 引用格式
@article{wang2024cosmo,
title={COSMO: Contrastive Streamlined Multimodal Model with Interleaved Pre-Training},
author={Wang, Alex Jinpeng and Li, Linjie and Lin, Kevin Qinghong and Wang Jianfeng and Lin, Kevin and Yang, Zhengyuan and Wang, Lijuan and Shou, Mike Zheng},
journal={arXiv preprint arXiv:2401.00849},
year={2024}
}
提供机构:
Awiny
原始信息汇总
Howto-Interlink7M
📙 概述
Howto-Interlink7M 是一个独特的视频-文本交错数据集,源自 Howto100M 的原始视频内容。该数据集通过 BLIP2(图像描述器)、GRIT(图像检测器)和 Whisper(自动语音识别)将长视频转化为视觉-文本交错文档。随后,使用 GPT-4 生成了 700 万 高质量预训练数据,过程中仔细过滤了包含敏感或低质量内容的片段。
📊 统计数据
以下是数据集的统计信息:
| 分割 | 样本数 | 平均片段数 | 平均片段长度 | 平均文档令牌数 |
|---|---|---|---|---|
| Howto-Interlink7M_subset_w_all_clips_train.tsv | 276711 | 8.4 | 49.8 | 460.3 |
| Howto-Interlink7M_subset_w_all_clips_val.tsv | 30746 | 8.4 | 49.8 | 460.2 |
| Howto-Interlink7M_subset_w_sampled_clips_train.tsv | 660827 | 5.8 | 47.2 | 319.4 |
| Howto-Interlink7M_sbset_w_sampled_clips_val.tsv | 73426 | 5.8 | 47.2 | 319.8 |
| 总计 | 1041710 | 6.6 | 48.0 | 361.0 |
🎓 引用
@article{wang2024cosmo, title={COSMO: Contrastive Streamlined Multimodal Model with Interleaved Pre-Training}, author={Wang, Alex Jinpeng and Li, Linjie and Lin, Kevin Qinghong and Wang Jianfeng and Lin, Kevin and Yang, Zhengyuan and Wang, Lijuan and Shou, Mike Zheng}, journal={arXiv preprint arXiv:2401.00849}, year={2024} }
搜集汇总
数据集介绍

构建方式
在多媒体信息处理领域,构建高质量的跨模态数据集是推动模型理解复杂视觉与文本关联的关键。Howto-Interlink7M数据集的构建过程体现了精细化的工程策略:其源数据源自Howto100M的原始视频内容,通过BLIP2图像描述模型、GRIT图像检测器及Whisper自动语音识别系统,将长视频转化为视觉与文本交错排列的文档结构。随后,借助GPT-4的强大生成能力,对约七百万条数据进行深度处理与扩充,同时严格过滤了包含敏感信息或质量较低的片段,确保了数据内容的纯净性与一致性。
特点
该数据集在跨模态学习领域展现出鲜明的特色,其核心在于提供了视觉与文本高度交织的文档形式,模拟了真实世界中信息的多模态呈现方式。数据统计显示,样本平均包含6.6个视频片段,每个片段时长约48秒,文档平均令牌数达361个,结构上兼顾了信息的密度与连续性。数据集划分为训练与验证子集,并提供了全片段与采样片段两种版本,为不同计算需求的研究提供了灵活性,支持对长序列多模态交互的深入探索。
使用方法
对于研究者而言,Howto-Interlink7M数据集为训练先进的跨模态模型提供了丰富资源。使用前需从Howto100M官方渠道获取原始视频,并依据提供的CSV文件中的视频标识符进行下载。数据以TSV格式组织,可直接用于类似COSMO等模型的预训练流程,实现视频与文本的对比学习或生成任务。数据集的交错结构特别适合训练模型理解时序相关的多模态语义,为视频摘要、内容生成等应用奠定基础。
背景与挑战
背景概述
在多媒体人工智能研究领域,视频与文本的跨模态理解一直是核心难题。Howto-Interlink7M数据集于2024年由研究团队发布,其构建基础源于著名的Howto100M原始视频资源。该数据集通过集成BLIP2、GRIT及Whisper等先进模型,将长视频转化为视觉与文本交织的文档结构,并借助GPT-4生成了规模达七百万的高质量预训练数据。这一工作旨在推动视频语言模型的统一表示学习,为多模态流式建模提供了关键的数据支撑,显著影响了后续如COSMO等模型的研发进程。
当前挑战
该数据集致力于解决视频与文本跨模态对齐的复杂挑战,尤其在长视频内容中提取连贯的语义片段并建立精准的时序关联。构建过程中,研究团队面临多重困难:原始视频素材质量参差不齐,需通过严格过滤以剔除敏感及低质内容;同时,融合多种视觉与语音识别模型时,需确保生成文本描述的准确性与一致性。此外,大规模使用GPT-4进行数据扩充时,如何保持生成内容的多样性与真实性,亦是数据集构建中的关键难题。
常用场景
经典使用场景
在跨模态学习领域,Howto-Interlink7M数据集以其交织的视频-文本结构,为多模态预训练提供了经典范例。该数据集通过BLIP2、GRIT和Whisper等先进模型,将长视频转化为视觉与文本交错排列的文档,模拟人类在观看教学视频时同步接收视觉信息和语言讲解的认知过程。这种设计使得模型能够学习视频片段与对应文本描述之间的细粒度对齐,为视频理解、跨模态检索和生成任务奠定了坚实基础。
衍生相关工作
该数据集直接催生了如COSMO(Contrastive Streamlined Multimodal Model)等一系列经典研究工作。COSMO模型利用数据集的交织特性进行对比学习与交错预训练,实现了视频与文本的高效融合,在多模态基准测试中表现出色。此外,该数据集的设计理念也启发了后续研究,促使更多工作探索如何将长格式视频转化为序列化多模态文档,从而推动生成式视频理解、多模态对话系统等方向的创新与发展。
数据集最近研究
最新研究方向
在视频与文本多模态学习领域,Howto-Interlink7M数据集凭借其独特的交错式视频-文本结构,正推动着前沿研究向更高效的跨模态理解与生成方向发展。该数据集通过BLIP2、GRIT及Whisper等先进模型将长视频转化为视觉与文本交错文档,并借助GPT-4生成大规模高质量预训练数据,为多模态大模型提供了丰富的时序对齐信息。当前研究热点集中于利用此类交错数据训练如COSMO等流线型对比模型,以提升模型在视频问答、内容摘要及跨模态检索等任务中的性能,其影响在于为开放域视频理解奠定了更接近人类认知模式的数据基础,促进了多模态人工智能向更自然、连贯的交互方式演进。
以上内容由遇见数据集搜集并总结生成



