BeepBank-500

arXiv2025-09-22 更新2025-09-24 收录

下载链接：

https://doi.org/10.5281/zenodo.17172015

下载链接

链接失效反馈

官方服务：

资源简介：

BeepBank-500是一个紧凑的、完全合成的耳标/警报数据集，包含300-500个片段，旨在为人类计算机交互和音频机器学习中的快速、无版权限制的实验而设计。每个片段都由参数化配方生成，控制波形族、基频、持续时间、振幅包络、振幅调制和轻量级Schroeder式混响。数据集的目标任务包括耳标分类、音色分析和起始检测，拥有明确的许可和限制。音频通过CC0-1.0专用于公有领域；代码在MIT许可下。

BeepBank-500 is a compact, fully synthetic earcon/alarm dataset containing 300–500 clips, designed for rapid, copyright-unrestricted experimentation in human-computer interaction and audio machine learning. Each clip is generated via a parameterized recipe that controls waveform family, fundamental frequency, duration, amplitude envelope, amplitude modulation, and lightweight Schroeder-style reverb. The target tasks of the dataset include earcon classification, timbre analysis, and onset detection, with clear licensing terms and restrictions. The audio is dedicated to the public domain under CC0-1.0; the code is licensed under the MIT License.

提供机构：

亚马逊

创建时间：

2025-09-22

原始信息汇总

BeepBank-500: A Psychoacoustic Earcon Mini-Corpus

基本信息

发布日期: 2025年9月21日
版本: v2
资源类型: 数据集
访问权限: 开放获取

创作者

Goswami, Mandip (Researcher)

描述

BeepBank-500 是一个紧凑、完全合成的耳标/警报迷你数据集（约300–500个单声道WAV片段，48 kHz），用于UI声音和心理声学研究。片段通过参数化配方生成，控制波形族（正弦波、方波、三角波、FM）、基频、持续时间、振幅包络、振幅调制以及Schroeder风格的混响。提供丰富的元数据CSV（信号/频谱特征）和微型基线（波形分类、f0回归）。

文件

文件名: earcon_publish_v1.0.1.zip
大小: 9.7 MB
MD5校验值: fc57739bf28e5282d5645a9c2e6cf1d4

附加信息

标识符

arXiv: arXiv:2509.17277

软件

代码库URL: https://github.com/mandip42/earcons-mini-500
编程语言: Python
开发状态: Active

统计信息

总浏览量: 24（本版本：21）
总下载量: 1（本版本：1）
数据总量: 9.7 MB（本版本：9.7 MB）

版本

版本v2: 10.5281/zenodo.17172530（2025年9月21日）
版本v1: 10.5281/zenodo.17172016（2025年9月21日）

外部资源索引

索引于: OpenAIRE

关键词

earcon; alarm; psychoacoustics; timbre; UI audio; AM; ADSR; reverb

详细信息

DOI: 10.5281/zenodo.17172530
发布者: Zenodo

许可协议

主要许可: Creative Commons Zero v1.0 Universal
附加许可: MIT License

引用格式

Goswami, M. (2025). BeepBank-500: A Psychoacoustic Earcon Mini-Corpus [Data set]. Zenodo. https://doi.org/10.5281/zenodo.17172530

技术元数据

创建日期: 2025年9月21日
修改日期: 2025年9月23日

搜集汇总

数据集介绍

构建方式

在非语音听觉图标研究领域，BeepBank-500采用参数化合成技术构建，通过精确控制波形族、基频、持续时间和振幅包络等核心参数生成音频片段。合成流程涵盖振荡器信号生成、可选振幅调制、ADSR包络整形以及轻量级Sch罗德混响处理，最终输出48kHz采样率的单声道WAV文件。该方法通过笛卡尔积参数网格系统化组合变量，并采用确定性种子确保实验可复现性。

特点

该数据集突出表现为紧凑性与参数多样性的平衡，涵盖正弦波、方波等五种波形变体，集成振幅调制与和弦结构以模拟真实场景的听觉特征。每个音频片段均附带详尽的元数据，包括频谱质心、粗糙度代理指标等声学特征，并预设干燥环境与两种混响空间的对比条件。其设计注重法律合规性，采用CC0-1.0许可确保研究使用的无障碍性，为心理声学分析提供标准化数据基础。

使用方法

研究者可通过Zenodo平台获取数据集文件与元数据表格，利用配套Python脚本进行波形分类或基频回归等基线实验。数据集已按文件名哈希值划分为训练集、验证集与测试集，支持直接加载log-Mel频谱特征进行模型训练。对于自定义研究，用户可调整生成脚本中的参数种子扩展样本变体，或结合元数据中的声学代理指标开展timbre相似性分析。所有实验流程均遵循文档化的依赖环境配置要求以保证结果一致性。

背景与挑战

背景概述

在非语音听觉界面设计领域，耳标（earcon）作为人机交互中不可或缺的听觉元素，广泛应用于移动设备通知、车载系统提示等场景。2025年由亚马逊科学家Mandip Goswami主导发布的BeepBank-500数据集，通过参数化合成技术构建了包含300-500个样本的微型语料库，旨在填补可控耳标研究数据的空白。该数据集以波形家族、频率调制、混响参数为核心变量，为心理声学分析和机器学习模型快速原型开发提供了标准化基准。

当前挑战

耳标研究长期面临真实场景数据稀缺与版权限制的双重挑战，而BeepBank-500通过完全合成策略规避了此类问题。其构建过程需平衡参数组合的多样性与数据规模的最小化，同时确保信号生成的确定性复现性。在应用层面，合成数据对复杂听觉感知的模拟精度有限，轻量级混响模型难以完全还原真实声学环境，基频回归任务中频率调制引发的谐波误差亦需更鲁棒的算法支持。

常用场景

经典使用场景

在人机交互与音频机器学习研究中，BeepBank-500数据集常被用于耳标分类任务的快速原型验证。通过其参数化生成的音频片段，研究者能够系统评估不同波形家族、频率调制和混响条件对分类器性能的影响，为界面声音设计提供量化依据。

衍生相关工作

基于该数据集衍生的研究多聚焦于跨模态声音检索系统开发，如将耳标特征映射至触觉反馈的编码模型。另有工作扩展其参数网格至空间音频生成，结合HRTF技术探索三维界面声效的感知特性。

数据集最近研究