VU Sound Corpus

github2019-10-31 更新2024-05-31 收录

下载链接：

https://github.com/CrowdTruth/VU-Sound-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了来自Freesound.org数据库的声音的众包注释数据，包括频率计数、搜索匹配、典型关键词等，用于研究声音的标注和分类。

This dataset comprises crowdsourced annotation data for sounds sourced from the Freesound.org database, encompassing frequency counts, search matches, typical keywords, and more, utilized for the study of sound labeling and classification.

创建时间：

2015-10-09

原始信息汇总

数据集概述

数据集名称

The VU sound corpus

数据贡献者

Emiel van Miltenburg, Benjamin Timmermans, and Lora Aroyo (2015)

数据来源

Vrije Universiteit Amsterdam

数据内容

结果文件: 位于./steps/4-results/目录下，包含所有结果数据，主要包括：
- results.xml: 包含所有标注数据的XML文件。
- soundcollection.dtd: 指定资源结构的DTD文件。
- 四个子目录：
  - Frequencies: 包含所有标签频率计数的CSV文件。
  - Search_matches_per_sound: 包含搜索实验结果的CSV文件。
  - typical_normalized 和 typical_raw: 包含原始作者和众包标注的典型关键词列表。

XML格式

数据以声音集合的形式表示，每个声音具有以下属性：id, batch, name, type, samplerate, duration, channels, bitrate 和 bitdepth。
声音元素包括：file, uri, descriptions, webrating 和 author-tags，以及包含标准化标签的crowd-tags元素。

数据加载方法

使用Python的lxml库加载数据，具体代码如下： python from lxml import etree xml = etree.parse(./steps/4-results/results.xml) root = xml.getroot()

数据筛选

使用XPATH表达式筛选具有特定属性的声音，例如特定时长或位深度的声音。

代码与复制

代码位于scripts文件夹，使用Python 2和Python 3编写。
复制工作需要安装特定的库和模型，如unicodecsv, Word2Vec, CrowdTruth等。

搜集汇总

数据集介绍

构建方式

VU Sound Corpus 数据集的构建是基于对Freesound.org数据库中声音的标注。该数据集的构建涉及从原始声音文件中提取特征，并通过众包方式对声音进行标注，形成了一个结构化的XML格式标注数据集。通过这种方式，研究者能够获得关于声音的详细信息，包括由作者和众包参与者提供的原始和标准化标签。

特点

该数据集的特点在于其包含了详尽的声音元数据，如声音ID、批次、名称、类型、采样率、时长、通道数、比特率和比特深度等。此外，数据集以XML格式组织，具有清晰的结构，便于查询和访问。它还提供了关于声音质量的评分，包括用户评分和自动生成的清晰度评分，以及不同群体在标注时偏好的典型关键词。

使用方法

使用该数据集时，用户可以通过Python的lxml库来加载XML格式的数据。数据集支持XPath表达式，允许用户根据特定的属性（如时长、比特深度）或元数据（如描述、原始标签、众包标签）来筛选声音。此外，数据集的代码和复制脚本已提供，以方便用户复现研究者的工作，并确保研究的可重复性。

背景与挑战

背景概述

VU Sound Corpus数据集由Emiel van Miltenburg、Benjamin Timmermans和Lora Aroyo于2015年在荷兰自由大学（Vrije Universiteit Amsterdam）创建。该数据集来源于Freesound.org数据库的声音标注，旨在提供一个用于众包标注和声音特征分析的资源。该数据集的创建不仅丰富了音频处理领域的研究资料，而且对于声音识别、标注质量评估等研究具有显著影响。其研究成果已发表相关论文，并被学术界广泛引用。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保标注质量的一致性和准确性，处理众包过程中产生的标注偏差，以及整合和标准化来自不同来源的标注数据。此外，数据集在解决声音识别和标注领域问题方面面临的挑战包括提高标注的精确度，扩展数据集以覆盖更多声音类型，以及开发有效的搜索匹配算法以改善声音检索的效率。

常用场景

经典使用场景

在音频数据处理领域，VU Sound Corpus 数据集的典型应用场景在于声音标注与分类的研究。该数据集整合了Freesound.org数据库中的声音样本，并提供了详尽的标注信息，使得研究者能够深入分析声音特征，从而提升声音识别与检索的准确性。

衍生相关工作

基于VU Sound Corpus，学术界衍生出了一系列相关工作，如众包标注质量评估、声音特征提取算法优化、以及声音分类模型的构建等，这些工作进一步拓宽了声音数据处理领域的研究视野，并推动了技术的进步。

数据集最近研究