ASPED v.b

Name: ASPED v.b
Creator: 乔治亚理工学院
Published: 2025-09-24 01:57:44
License: 暂无描述

arXiv2025-09-24 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/urbanaudiosensing/ASPEDvb

下载链接

链接失效反馈

官方服务：

资源简介：

ASPED v.b数据集是一个包含1321小时音频的全面数据集，涵盖了交通丰富的声景。每个录音包括16kHz的音频，与帧级别的行人注释和1fps视频同步。该数据集旨在解决现有研究中缺乏对车辆噪声影响行人检测性能的信息，以及缺乏对使行人检测成为可能的声学特征的了解的问题。数据集的创建过程涉及在乔治亚理工学院校园附近的道路上收集音频数据，并使用6台GoPro相机进行视频记录。该数据集适用于行人检测、声音事件检测、城市声音分析等领域。

提供机构：

乔治亚理工学院

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

在智能城市感知技术蓬勃发展的背景下，ASPED v.b数据集通过精心设计的实地采集方案构建而成。研究团队在佐治亚理工学院校园内临近道路的区域部署了4至8台录音设备，同步采集16kHz音频数据与每秒1帧的视频缩略图，持续记录约1321小时的真实道路声景。数据标注基于视频分析，以6米半径范围内的行人出现为基准，同时标记车辆噪声干扰时段，确保数据兼具生态效度与计算可用性。

特点

该数据集的核心价值体现在其对复杂城市声景的全面覆盖。相较于传统安静环境下的音频数据集，ASPED v.b创新性地融入了持续的道路交通噪声，其中车辆出现的帧比例随检测半径扩大从9.16%递增至42.91%。数据集严格遵循时间序列规律，清晰呈现午后三至五时的行人活动高峰与夜间低谷的典型模式，同时保留因校园课程安排产生的周期性流量波动，为模型训练提供了真实世界的动态语境。

使用方法

在具体应用层面，研究者可借助该数据集开展多维度实验验证。通过交叉数据集评估可探究模型在噪声环境与安静环境间的泛化能力；利用车辆存在控制的测试子集能精确分析噪声对检测性能的影响机制；结合FSD50K声音本体库可深入解析模型依赖的声学特征。数据处理时建议采用对数梅尔频谱转换与VGGish特征提取流程，并配合加权损失函数以应对类别不平衡问题。

背景与挑战

背景概述

音频感知技术在城市计算领域的兴起，为行人检测提供了新的研究视角。ASPED v.b数据集由佐治亚理工学院音乐信息学组与城市韧性分析中心于2025年联合发布，聚焦于车辆噪声环境下的行人音频检测难题。该数据集包含1321小时带标注的路侧音频数据，通过同步采集16kHz音频与逐帧视频标注，填补了复杂声学场景下行人检测研究的空白。其创新性在于突破传统视觉传感器的局限，为智慧城市中隐私保护型人流监测技术提供了重要数据支撑。

当前挑战

该数据集面临的核心挑战体现在算法与数据两个维度。在领域问题层面，车辆噪声对行人音频特征的遮蔽效应导致模型泛化能力受限，跨数据集测试显示准确率下降达5-7个百分点。数据构建过程中，9-43%的帧存在车辆干扰声源，需开发专用标注协议区分行人脚步声与发动机噪声。此外，2.9%的帧因公交车遮挡导致视频标注失效，需建立多模态校验机制确保标注可靠性。非人声声源的误判问题尤为突出，乐器声在安静环境中被误判为行人的概率高达94%，凸显了声学特征解耦的复杂性。

常用场景

经典使用场景

在智能城市与声学感知研究领域，ASPED v.b数据集通过整合交通噪声环境下的音频与视频同步标注，为基于声音的行人检测任务提供了关键实验平台。该数据集典型应用于训练和评估深度学习模型在复杂声学场景中的行人识别能力，尤其在车辆噪声干扰下验证模型的鲁棒性，推动了音频事件检测与城市声景分析的交叉研究。

实际应用

在实际部署中，ASPED v.b支持智能交通系统与公共安全监测的优化，通过低成本麦克风阵列替代视觉传感器，在视觉遮挡或低光照环境中实现连续行人流量统计。其数据还可用于评估城市步行友好性，辅助城市规划者分析人行道使用模式，为安全投资与土地利用决策提供数据支撑，体现了声学传感技术在智慧城市中的实用价值。

衍生相关工作

基于该数据集的研究催生了多项声学感知领域的创新工作，例如跨数据集泛化性评估框架的建立，以及对车辆噪声下特征学习机制的深入解析。相关成果进一步推动了多模态融合方法的探索，如结合音频与视频数据提升检测鲁棒性，并为声学事件检测模型的可解释性研究提供了新范式，持续拓展城市声景分析的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集