Urbansas

github2022-12-06 更新2024-05-31 收录

下载链接：

https://github.com/magdalenafuentes/urbansas

下载链接

链接失效反馈

官方服务：

资源简介：

Urbansas是一个城市声音和视觉数据集，用于音频-视觉城市场景分析。数据集包含了城市环境中的声音和视频数据，用于训练和评估模型。

Urbansas is an urban sound and visual dataset designed for audio-visual urban scene analysis. The dataset encompasses sound and video data from urban environments, intended for training and evaluating models.

创建时间：

2022-02-16

原始信息汇总

数据集概述

数据集名称

Urbansas Baseline

数据集下载

数据集托管于Zenodo。
可通过Soundata下载。

数据集结构

数据集应包含以下文件夹：annotations/, audio/, video_2fps/。

数据集设置

创建数据索引：
- 使用命令python index_dataset.py --datasets Urbansas生成包含文件及其地面实况标签的JSON文件。
- 确认index/文件夹中存在Urbansas.json文件。
缓存数据集：
- 运行python cache_dataset.py以缓存用于训练的数据集格式。

模型训练

使用train_model.py脚本进行模型训练，支持点源模型和框模型。
示例命令： bash python train_model.py --train_dataset Urbansas --val_dataset Urbansas --train_folds 1 2 3 4 --val_folds 0 --config_name urbansas_f0_point_sources --point_sources --filter_confirmed

预测与评估

预测：
- 使用predict_model.py脚本进行预测。
- 示例命令： bash python predict_model.py --config_name urbansas_f0_point_sources --folds 0 --point_sources --filter_confirmed
评估：
- 使用evaluate_model.py脚本评估模型性能。
- 示例命令： bash python evaluate_model.py --config_name urbansas_f0_point_sources --point_sources

结果可视化

使用jupyter lab notebooks/results.ipynb和jupyter lab notebooks/viz.ipynb进行结果分析和可视化。

引用信息

引用论文：

"Urban sound & sight: Dataset and benchmark for audio-visual urban scene understanding." Fuentes, M., Steers, B., Zinemanas, P., Rocamora, M., Bondi, L., Wilkins, J., Shi, Q., Hou, Y., Das, S., Serra, X. and Bello, J.P., in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
- 引用格式：
  
  @inproceedings{urbansas_2022, title={Urban sound & sight: Dataset and benchmark for audio-visual urban scene understanding}, author={Fuentes, Magdalena and Steers, Bea and Zinemanas, Pablo and Rocamora, Mart{\i}n and Bondi, Luca and Wilkins, Julia and Shi, Qianyi and Hou, Yao and Das, Samarjit and Serra, Xavier and others}, booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={141--145}, year={2022}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

Urbansas数据集的构建过程体现了多模态数据融合的前沿理念。该数据集通过同步采集城市环境中的音频和视频信息，构建了一个包含丰富场景标注的多模态数据集。研究人员精心设计了数据采集方案，确保音频和视频数据在时间和空间上的精确对齐，同时采用专业设备捕捉高质量的城市环境音视频数据。在数据标注环节，团队开发了系统的标注流程，对音频事件、视觉场景等关键信息进行了细致的标注，为后续的多模态学习任务奠定了坚实基础。

特点

Urbansas数据集以其独特的双模态特性在城市场景理解领域脱颖而出。该数据集不仅包含高质量的城市环境音频数据，还配备了同步采集的视频信息，为多模态学习提供了理想的实验平台。数据集中涵盖了丰富的城市声景类别，每个样本都经过精确的时空对齐和细致的标注。特别值得一提的是，数据集采用了创新的5折交叉验证方案，为模型评估提供了可靠的标准。这些特点使得Urbansas成为研究城市环境感知和理解的重要资源。

使用方法

使用Urbansas数据集进行研究的流程设计科学而规范。研究人员可以通过Soundata库便捷地下载和验证数据集，随后利用提供的脚本工具构建数据索引和缓存。数据集支持灵活的模型训练方案，用户可以选择点源或区域源模式进行训练，并通过5折交叉验证评估模型性能。预测和评估模块的设计使得结果分析更加便捷，而配套的Jupyter Notebook则为结果可视化和深入分析提供了有力支持。这种系统化的使用流程确保了研究工作的可重复性和科学性。

背景与挑战

背景概述

Urbansas数据集由Magdalena Fuentes等研究人员于2022年创建，旨在推动音频-视觉城市场景理解领域的研究。该数据集由多个研究机构共同开发，包括纽约大学、庞培法布拉大学等，并在IEEE国际声学、语音与信号处理会议（ICASSP）上发布。数据集的核心研究问题在于如何通过音频和视觉数据的融合，提升对城市环境的理解能力，特别是在噪声环境下的场景识别与分类任务中。Urbansas数据集为研究者提供了一个多模态基准，推动了音频-视觉联合建模技术的发展，并在城市计算、智能交通等领域产生了广泛影响。

当前挑战

Urbansas数据集在解决音频-视觉城市场景理解问题时面临多重挑战。首先，城市环境中的音频和视觉数据通常包含大量噪声和干扰，如何有效提取并融合多模态特征是一个关键难题。其次，数据集的构建过程中，研究人员需要处理大规模、多样化的城市场景数据，包括音频、视频和标注信息的同步采集与对齐，这对数据采集设备和标注流程提出了极高的要求。此外，数据集的多样性和复杂性也对模型的泛化能力提出了挑战，如何在不同的城市环境中保持模型的鲁棒性和准确性，仍需进一步探索。

常用场景

经典使用场景

Urbansas数据集在音频-视觉城市场景理解领域具有广泛的应用。该数据集通过提供同步的音频和视频数据，为研究者提供了一个多模态数据平台，用于探索城市环境中的声音与视觉信息之间的关联。其经典使用场景包括城市噪音分类、声音事件检测以及视觉场景理解等任务，尤其是在复杂的城市环境中，这些任务对于智能城市管理和环境监测具有重要意义。

解决学术问题

Urbansas数据集解决了多模态数据融合中的关键问题，特别是在音频和视觉信息的联合分析方面。通过提供高质量的标注数据，该数据集为研究者提供了一个基准，用于开发和评估多模态模型。其解决了传统单模态方法在处理复杂城市环境时的局限性，推动了音频-视觉联合建模技术的发展，为智能城市和自动化监控系统的研究提供了新的思路。

衍生相关工作

Urbansas数据集自发布以来，已衍生出多项经典研究工作。例如，基于该数据集的音频-视觉联合建模方法在ICASSP等顶级会议上得到了广泛讨论。这些研究不仅推动了多模态学习算法的发展，还为城市环境中的智能感知系统提供了新的解决方案。此外，该数据集还被用于开发新的基准测试工具，进一步促进了音频-视觉场景理解领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集