pseshadri9/ASPED
收藏ASPED: An Audio Dataset for Detecting Pedestrians
概述
ASPED 数据集包含在佐治亚理工学院及其周边地区收集的行人活动的音频和视频记录。每秒音频/视频的行人数量标签也已提供,这些标签是通过使用计算机视觉模型(Mask2Former 在 msft-coco 上训练)处理视频记录计算得出的。
访问
建议使用 huggingface_hub 库从指定位置下载数据集。下载整个数据集的代码如下:
python
from huggingface_hub import snapshot_download
snapshot_download(repo_id="pseshadri9/ASPED", repo_type="dataset")
如果只需要下载音频或视频,可以使用 ignore_patterns 标志避免下载整个数据集。
仅下载音频: python from huggingface_hub import snapshot_download snapshot_download(repo_id="pseshadri9/ASPED", repo_type="dataset", ignore_patterns="*.mp4")
仅下载视频: python from huggingface_hub import snapshot_download snapshot_download(repo_id="pseshadri9/ASPED", repo_type="dataset", ignore_patterns="*.flac")
引用
plaintext @inproceedings{Seshadri24, title={ASPED: An Audio Dataset for Detecting Pedestrians}, author={Seshadri, Pavan and Han, Chaeyeon and Koo, Bon-Woo and Posner, Noah and Guhathakurta, Suhbrajit and Lerch, Alexander}, booktitle={Proc. of ICASSP 2024}, pages={1--5}, year={2024}, organization={IEEE} }



