SONYC-UST-V2

Name: SONYC-UST-V2
Creator: 纽约大学
Published: 2020-09-11 09:19:12
License: 暂无描述

arXiv2020-09-11 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.3966543

下载链接

链接失效反馈

官方服务：

资源简介：

SONYC-UST-V2是一个包含18510条音频记录的城市声音标签数据集，由纽约大学的研究团队创建。该数据集来源于‘纽约城市声音’（SONYC）声学传感器网络，每条记录都附带了采集时间和传感器位置的时空元数据。数据集中的音频记录由Zooniverse公民科学平台的志愿者进行标注，并通过研究团队的二次验证。SONYC-UST-V2旨在解决城市噪音监测中的机器听觉系统开发和评估问题，通过提供时空上下文信息，帮助预测城市声音标签。

SONYC-UST-V2 is an urban sound tagged dataset containing 18,510 audio recordings, created by a research team at New York University. This dataset is sourced from the 'New York Urban Sound' (SONYC) acoustic sensor network. Each recording is accompanied by spatio-temporal metadata including acquisition time and sensor location. The audio recordings in the dataset were annotated by volunteers from the Zooniverse citizen science platform, and underwent secondary validation by the research team. SONYC-UST-V2 aims to address the development and evaluation of machine audition systems for urban noise monitoring, and helps predict urban sound tags by providing spatio-temporal contextual information.

提供机构：

纽约大学

创建时间：

2020-09-11

搜集汇总

数据集介绍

构建方式

SONYC-UST-V2数据集的构建方式是通过从纽约市“纽约之声”(SONYC)声学传感器网络收集音频记录，并利用Zooniverse公民科学平台上的志愿者进行注释。数据集包括18510个音频记录，每个记录都包含了音频获取的时间戳和传感器的位置信息。为了保持数据隐私，空间信息被量化到城市街区级别，时间信息被量化到小时级别。此外，数据集还包括来自Zooniverse平台的志愿者注释，以及团队进行的两阶段验证。

使用方法

使用SONYC-UST-V2数据集的方法包括利用音频内容、空间和时间的特征来训练和评估机器听音系统。数据集被分为训练集、验证集和测试集，其中训练集和验证集的传感器是独立的，而测试集在时间上是独立的。数据集中的标签分为粗粒度和细粒度两个层次，模型需要独立地对这两个层次的标签进行评估。此外，数据集还提供了标签的时空信息，可以使用这些信息来帮助模型学习城市的“节奏”，并与其他外部数据集进行查询和连接，以提供额外的上下文信息。

背景与挑战

背景概述

在机器听觉研究中，研究者们通常使用从互联网上收集的数据集，这些数据集与实际应用脱节，缺乏关于数据记录的时间和地点等相关的元数据。然而，在许多现实世界的传感应用中，我们确实知道数据记录的时间和地点，并且这种时空上下文（STC）元数据可能告诉我们录音中可能发生的物体或事件。计算机视觉研究人员已经证明，STC在检测相机陷阱图像中的动物和交通摄像头图像中的车辆等物体时非常有帮助。我们相信STC也可能有助于声音事件检测任务，例如城市声音标记。例如，在纽约市，你更有可能在七月的星期六下午3点在公园附近听到冰淇淋卡车，而不是在一月星期二的交通高峰时段在繁忙的街道上听到；然而，你更有可能在星期二听到喇叭声、引擎声和警笛声。但是，如果知道七月的星期六下午有雷暴，那么你听到冰淇淋卡车的可能性就会降低，也可能帮助你区分大雨声和大型步行锯的声音。然而，很少有研究利用这些信息进行城市声音标记，甚至是一般的声音标记。我们假设，造成这种情况的一个主要原因是缺乏带有音频和时空元数据的可用数据。本文介绍SONYC-UST-V2，一个带有时空信息的城市声音标记数据集，该数据集包含来自SONYC声学传感器网络的18510个带注释的10秒录音，并作为DCASE 2020城市声音标记时空挑战的数据集。每个录音都已被注释了23个“标签”，这是与纽约市环境保护局（DEP）协调开发的，代表了纽约市许多常见的噪音投诉原因。除了录音外，我们还提供了录音所在的纽约市街区（位置）以及录音时间的标识，时间量化到小时。这些信息本身可以帮助标记模型学习城市的“节奏”，但也可以用来查询和连接外部数据集，这些数据集可以提供额外的上下文信息，例如天气、交通、节假日、土地利用、城市许可证和社会数据，所有这些信息都可以通过丰富的公共数据集获得。我们希望这些数据和任务可以提供一个测试平台，用于研究这些想法在机器听觉中的应用。

当前挑战

在城市声音标记录音的注释中，声音事件可能非常遥远，信噪比低，但仍然可以听到。此外，没有视觉验证，许多声音事件很难区分。为了捕捉这种不确定性，注释者被允许提供“不完整”的注释，在不确定细粒度类别时只提供粗粒度类别（例如，“其他/未知引擎”）。由于这项任务的难度，基于Zooniverse注释者的众包注释的注释者间一致性相当低（Krippendorff的α为0.36）。因此，SONYC-UST-V2包含了所有的个人众包和验证注释，我们鼓励数据集的用户探索注释聚合策略，以模拟和纳入注释者可靠性。由于这超出了本文的范围，我们使用了一种简单的少数票数方法作为我们的基线模型和分析方法，即如果至少有一个注释者将其标记为存在，则在聚合中标记一个类别为存在。在以前与Zooniverse注释者的工作中，我们发现这种方法可以提高召回率，而不会显著降低精确率。表1使用第5节中概述的指标评估了使用少数票数聚合的Zooniverse注释与测试集中的验证注释相比的性能。这些结果可能代表了当只使用简单的注释聚合方法时良好的模型性能。

常用场景

经典使用场景

SONYC-UST-V2 数据集广泛应用于城市噪声监测领域，通过其包含的时空信息，为机器听觉系统提供了丰富的数据支持。该数据集的经典使用场景在于训练和评估多标签分类模型，以实现对城市中不同声音事件的自动识别和分类。例如，利用该数据集可以训练模型识别和区分城市中常见的噪声源，如交通噪声、施工噪声、警报信号等，从而为城市噪声污染的监测和管理提供技术支持。

解决学术问题

SONYC-UST-V2 数据集解决了城市噪声监测领域中的多个学术研究问题。首先，该数据集提供了大量的城市声音标签数据，为城市声音识别和分类的研究提供了数据基础。其次，数据集包含的时空信息，为研究时空背景对城市声音识别的影响提供了可能。此外，该数据集的发布也促进了多标签分类、时空信息处理等研究领域的进一步发展。

实际应用

SONYC-UST-V2 数据集在实际应用中具有广泛的应用前景。例如，在城市噪声监测和管理中，利用该数据集训练的模型可以实现对城市噪声的实时监测和分类，为城市噪声污染的治理提供数据支持。此外，该数据集还可以用于城市环境评估、城市规划等领域，为城市环境的改善和可持续发展提供数据支持。

数据集最近研究