MicroTex

Hugging Face2025-04-11 更新2025-04-12 收录

下载链接：

https://huggingface.co/datasets/cordutie/MicroTex

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由三个不同的声音纹理数据集组成的集合，旨在用于音频分类、生成或分析等机器学习任务。每个子数据集来自不同的源，并包含了相应的元数据。具体包括：BOReillySegmented16K数据集，含有6580个一秒长的音频片段，采样率为16kHz；Freesound数据集，含有经过精心挑选的声音纹理，采样率为44100Hz，单声道；Syntex数据集，是一个小型的合成数据集，使用SynTex声音纹理生成工具生成，采样率为44100Hz，单声道。

创建时间：

2025-04-06

原始信息汇总

Micro Texture Sounds Dataset 概述

📜 基本信息

许可证: CC-BY-NC-4.0
任务类别: 音频分类
标签: 纹理声音
数据集名称: Micro Texture Sounds Datase

📂 数据集结构

数据集包含三个子集：

1. BOReillySegmented16K

文件夹: boreillysegmented16K_class/
样本数: 6580个1秒音频片段
采样率: 16kHz
文件大小: ~204MB（压缩后）
内容: 噪声声音纹理
来源: 声音艺术家 Brian OReilly
原始用途: 提交至evoMusArt的论文
注意事项: 不包含原始数据集的test子集
时长: 6580秒，分为10类
更多信息: BOReilly Dataset Page

2. Freesound

文件夹: freesound_class/
许可证: 至少为CC BY-NC 4.0的Creative Commons许可证
元数据: 包含metadata.json，记录原始声音链接和许可证信息
内容: 手工筛选的声音纹理
采样率: 44100Hz
声道: 单声道
时长: 2261秒，分为6类
来源: Freesound.org

3. SynTex

文件夹: syntex_class/
生成工具: SynTex声音纹理生成工具
相关论文: "SynTex: Generating Audio Texture Datasets"
- DOI: 10.21428/92fbeb44.0fe70450
- 全文: NIME 2022 Proceedings
采样率: 44100Hz
声道: 单声道
时长: 7286秒，分为6类

📑 许可证信息

BOReillySegmented16K: 参考原始作者的使用条款
Freesound: 遵循Creative Commons许可证（见元数据）
SynTex: 遵循原始SynTex论文中的许可条款

📬 引用要求

使用本数据集时，请考虑引用各子集的原始数据集或相关论文。

搜集汇总

数据集介绍

构建方式

MicroTex数据集作为一个专业的声音纹理研究资源，其构建过程体现了多源数据融合的学术思路。数据集由三个精心设计的子集构成：BOReillySegmented16K子集基于艺术家Brian O'Reilly的原创作品，包含6580段16kHz采样率的1秒音频片段；Freesound子集通过人工筛选Freesound.org平台上的CC授权素材，确保所有样本符合CC BY-NC 4.0许可要求；SynTex子集则运用声学纹理合成技术生成，源自NIME 2022会议发表的SynTex生成系统。每个子集都经过标准化的采样率处理和类别划分，并保留了完整的元数据信息。

特点

该数据集最显著的特征在于其多模态的数据来源和精细的学术标注。三个子集分别代表真实艺术家创作、社区众包素材和算法生成样本三种不同维度的声音纹理数据，采样率覆盖16kHz至44.1kHz的专业音频标准。数据集特别注重法律合规性，所有样本均明确标注来源和授权协议，其中Freesound子集还包含详细的元数据文件。类别划分方面，各子集根据声学特征分为6-10个纹理类别，总时长超过16,000秒，为机器学习模型提供了丰富的训练素材。

使用方法

在科研应用场景中，MicroTex数据集支持多种音频处理任务的基准测试。研究者可通过HuggingFace平台直接访问各子集文件夹，每个子集均包含标准化的音频文件结构和元数据文档。对于分类任务，建议利用预设的类别标签进行监督学习；生成任务则可重点参考SynTex子集的算法生成范例。使用需注意不同子集的授权差异：BOReilly子集需遵守原始艺术家协议，Freesound素材需满足CC BY-NC 4.0要求，SynTex生成样本则受NIME论文授权条款约束。为保障学术规范性，建议在研究中引用各子集对应的原始文献。

背景与挑战

背景概述

MicroTex数据集是一个专注于声音纹理分析的音频数据集，由多个子集构成，包括BOReillySegmented16K、Freesound和SynTex三个部分。该数据集由多位研究人员和机构共同构建，旨在为机器学习任务如音频纹理分类、生成和分析提供高质量的数据支持。BOReillySegmented16K部分源于声音艺术家Brian O'Reilly的创作，并在evoMusArt会议上发表相关研究；Freesound部分则精选自Freesound.org平台上的开放授权音频；SynTex部分则通过合成工具生成，相关研究发表于NIME 2022会议。该数据集为音频纹理领域的研究提供了多样化的数据资源，推动了声音纹理分析与生成技术的发展。

当前挑战

MicroTex数据集在构建和应用过程中面临多重挑战。在领域问题方面，声音纹理的多样性和复杂性使得分类和生成任务尤为困难，尤其是如何准确捕捉和表征不同纹理的声学特征。数据集的构建过程中，挑战主要体现在数据来源的多样性和质量控制的复杂性上。BOReillySegmented16K部分需要处理原始数据的噪声和不一致性；Freesound部分则需确保所有样本符合特定授权许可，并经过人工筛选以保证数据质量；SynTex部分则需依赖合成工具的生成能力，其结果的真实性和多样性成为关键问题。此外，不同子集的采样率和格式差异也为数据整合带来了技术挑战。

常用场景

经典使用场景

在音频信号处理领域，MicroTex数据集为研究者提供了丰富的声纹纹理样本，尤其适用于机器学习模型的训练与验证。其经典使用场景包括声纹分类、音频生成及纹理分析。通过整合来自不同来源的音频片段，该数据集能够模拟真实世界中的复杂声学环境，为算法开发提供多样化的数据支持。

衍生相关工作

基于MicroTex数据集衍生的经典研究包括声纹合成算法优化和跨模态声音生成。SynTex工具的相关论文开创了合成声纹数据集的新范式，而BOReilly数据集则在进化艺术领域催生了多篇关于声音纹理美学评价的研究。这些工作共同推动了计算声学与机器学习交叉领域的发展。

数据集最近研究