shawshankvkt/Walking_Tours
收藏Walking Tours 数据集
概述
Walking Tours 数据集是一个独特的长时间第一人称视角视频集合,捕捉于欧洲和亚洲城市的城市环境中。该数据集包含10个高分辨率视频,每个视频展示一个人在不同环境中行走,包括市中心、公园和住宅区,以及不同光照条件下的场景。还包括一个野生动物 safari 视频,以多样化数据集的自然环境。数据集完全未标记和未经过筛选,适合自监督预训练。
涵盖城市
数据集包括以下城市的步行视频:
- 阿姆斯特丹
- 曼谷
- 清迈
- 伊斯坦布尔
- 吉隆坡
- 新加坡
- 斯德哥尔摩
- 威尼斯
- 苏黎世
视频规格
- 分辨率: 4K(3840 × 2160 像素)
- 帧率: 60 帧每秒
- 许可证: 知识共享许可协议(CC-BY)
时长
视频时长各异,提供多样化的内容:
- 最短时长:59 分钟(野生动物 safari)
- 最长时长:2 小时 55 分钟(曼谷)
- 平均时长:1 小时 38 分钟
数据集下载
完整的 WTour 视频列表可在 WTour.txt 中找到,包含 YouTube 链接和对应城市。
下载数据集步骤:
-
安装 pytube: bash pip install pytube
-
运行下载脚本: bash python download_WTours.py --output_folder <path_to_folder>
为了遵守 GDPR,我们还尝试模糊视频中出现的所有面部和车牌,使用 Deface:
-
安装 Deface: bash python3 -m pip install deface
-
运行 Deface 脚本: bash chmod a+x gdpr_blur_faces.sh ./gdpr_blur_faces.sh
引用
如果您发现此工作有用并在自己的研究中使用,请引用我们的论文: bibtex @inproceedings{venkataramanan2023imagenet, title={Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video}, author={Venkataramanan, Shashanka and Rizve, Mamshad Nayeem and Carreira, João and Asano, Yuki M and Avrithis, Yannis}, booktitle={International Conference on Learning Representations}, year={2024} }



