Seeing Sound Dataset

github2022-08-25 更新2024-05-31 收录

下载链接：

https://github.com/sonyc-project/seeing-sound-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含合成的声景和众包音频事件注释，用于研究声景复杂性和声音可视化对音频事件注释质量与速度的影响。数据集通过两个维度（最大复音和Gini复音）变化声景复杂度，共合成60个10秒长的声景，每个声景由90名Amazon Mechanical Turk参与者注释，其中30名使用波形可视化，30名使用频谱图可视化，30名无任何可视化辅助。

This dataset comprises synthesized soundscapes and crowdsourced audio event annotations, designed to investigate the impact of soundscape complexity and sound visualization on the quality and speed of audio event annotation. The dataset varies soundscape complexity along two dimensions (maximum polyphony and Gini polyphony), synthesizing a total of 60 soundscapes, each 10 seconds in length. Each soundscape was annotated by 90 Amazon Mechanical Turk participants, with 30 using waveform visualization, 30 using spectrogram visualization, and 30 without any visualization aids.

创建时间：

2017-08-15

原始信息汇总

数据集概述

创建者

机构: 纽约大学（美国）、滑铁卢大学（加拿大）
作者: Mark Cartwright, Ayanna Seals, Justin Salamon, Alex Williams, Stefanie Mikloska, Duncan MacConnell, Edith Law, Juan Pablo Bello, Oded Nov

描述

目的: 研究声音景观复杂性和声音可视化对声音事件（如开始时间、结束时间、声音类别和接近度）注释质量和速度的影响。
方法: 通过两个维度（最大复调性和吉尼复调性）变化声音景观复杂性，合成60个10秒长的声音景观，并由90名Amazon Mechanical Turk参与者进行注释。

内容

音频文件: 60个WAV格式的声音景观文件，命名格式为soundscape-<soundscape_id>_m<max_polyphony_level>_g<gini_polyphony_level>.wav。
注释文件: 60个JAMS格式的注释文件，命名格式为soundscape-<soundscape_id>_m<max_polyphony_level>_g<gini_polyphony_level>.jams。

注释文件详情

格式: JAMS，一种JSON基础的音频注释格式。
内容: 每个JAMS文件包含地面实况注释和90个众包注释。
- 地面实况注释: 描述声音事件的时间、持续时间和值，包括声音类别、信噪比等。
- 众包注释: 描述参与者感知的开始时间、持续时间和值，包括感知的声音类别和接近度。

声音事件类别

汽车喇叭声
狗叫声
引擎怠速声
枪声
钻机声
音乐播放声
人群呼喊声
人群交谈声
警笛声

引用信息

BibTeX引用:

@article{Cartwright:SeeingSound:CSCW:17, Author = {Cartwright, M. and Seals, A. and Salamon, J. and Williams, A. and Mikloska, S. and MacConnell, D. and Law, E. and Bello, J.P. and Nov, O.}, Journal = {Proceedings of the ACM on Human-Computer Interaction}, Number = {2}, Title = {Seeing Sound: Investigating the Effects of Visualizations and Complexity on Crowdsourced Audio Annotations}, Volume = {1}, Year = {2017}, DOI = {10.1145/3134664} }

搜集汇总

数据集介绍

构建方式

Seeing Sound数据集的构建过程体现了对声音景观复杂性和可视化效果对音频标注质量影响的深入研究。研究者通过Scaper工具合成了60个10秒长的声音景观，这些声音景观在最大复音数和Gini复音数两个维度上具有不同的复杂性。每个声音景观由90名来自Amazon Mechanical Turk的参与者进行标注，其中30人使用波形可视化辅助，30人使用频谱图可视化辅助，另外30人则无任何可视化辅助。这种设计旨在探索不同可视化工具对标注准确性和效率的影响。

使用方法

使用Seeing Sound数据集时，研究者可以通过Python加载JAMS格式的标注文件，利用Scaper库中的工具进行数据解析。每个JAMS文件中的第一个标注是真实标注，其余为众包标注。研究者可以通过分析这些标注数据，探讨不同可视化工具对声音事件标注的影响，以及声音景观复杂性对标注质量的作用。此外，数据集中的详细元数据为研究声音感知和标注行为提供了丰富的信息源。

背景与挑战

背景概述

Seeing Sound Dataset是由纽约大学和滑铁卢大学的研究团队于2017年创建的一个音频数据集，旨在研究声音景观复杂性和声音可视化对音频标注质量和速度的影响。该数据集由Mark Cartwright、Ayanna Seals、Justin Salamon等研究人员共同开发，主要关注声音事件（如开始时间、结束时间、声音类别和接近度）的标注问题。通过使用Scaper工具合成的60个声音景观，并结合亚马逊Mechanical Turk平台的众包标注，该数据集为声音事件标注的研究提供了丰富的数据支持。其研究成果发表在《Proceedings of the ACM on Human-Computer Interaction》期刊上，对声音事件标注和可视化辅助标注领域具有重要的学术影响力。

当前挑战

Seeing Sound Dataset在构建和应用过程中面临多重挑战。首先，声音景观的复杂性设计涉及最大复音数和基尼复音数两个维度，如何平衡这些参数以生成具有代表性的声音景观是一个技术难题。其次，众包标注的质量控制是一个关键问题，尽管通过可视化辅助（如波形图和频谱图）提高了标注效率，但不同参与者的主观判断仍可能导致标注结果的偏差。此外，数据集中的声音事件类别有限，可能限制了其在更广泛场景中的应用。最后，数据集的构建依赖于多个工具和平台（如Scaper、Audio-Annotator和Mechanical Turk），如何确保这些工具之间的兼容性和数据一致性也是一个重要的技术挑战。

常用场景

经典使用场景

Seeing Sound Dataset 在音频标注领域具有广泛的应用，尤其是在研究声音事件标注的质量和效率时。该数据集通过合成不同复杂度的声景，并结合波形图和频谱图等可视化工具，探索了这些因素对众包音频标注的影响。研究人员可以利用该数据集分析标注者在不同可视化辅助下的表现，从而优化音频标注工具的设计。

解决学术问题

Seeing Sound Dataset 解决了音频标注领域中关于标注质量和效率的核心问题。通过控制声景的复杂度（如最大复音数和基尼复音数），并结合不同可视化工具的使用，该数据集为研究声音事件标注的准确性、速度和一致性提供了丰富的数据支持。这些研究结果有助于改进众包音频标注的流程，提升标注数据的可靠性。

实际应用

在实际应用中，Seeing Sound Dataset 为音频标注工具的开发提供了重要的参考依据。例如，在智能城市监控系统中，该数据集可用于训练和评估声音事件检测算法，从而提高对交通噪声、警报声等关键声音的识别能力。此外，该数据集还可用于教育领域，帮助学生和研究人员更好地理解声音事件标注的复杂性。

数据集最近研究