five

MicroTex

收藏
Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://huggingface.co/datasets/cordutie/MicroTex
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由三个不同的声音纹理数据集组成的集合,旨在用于音频分类、生成或分析等机器学习任务。每个子数据集来自不同的源,并包含了相应的元数据。具体包括:BOReillySegmented16K数据集,含有6580个一秒长的音频片段,采样率为16kHz;Freesound数据集,含有经过精心挑选的声音纹理,采样率为44100Hz,单声道;Syntex数据集,是一个小型的合成数据集,使用SynTex声音纹理生成工具生成,采样率为44100Hz,单声道。
创建时间:
2025-04-06
原始信息汇总

Micro Texture Sounds Dataset 概述

📜 基本信息

  • 许可证: CC-BY-NC-4.0
  • 任务类别: 音频分类
  • 标签: 纹理声音
  • 数据集名称: Micro Texture Sounds Datase

📂 数据集结构

数据集包含三个子集:

1. BOReillySegmented16K

  • 文件夹: boreillysegmented16K_class/
  • 样本数: 6580个1秒音频片段
  • 采样率: 16kHz
  • 文件大小: ~204MB(压缩后)
  • 内容: 噪声声音纹理
  • 来源: 声音艺术家 Brian OReilly
  • 原始用途: 提交至evoMusArt的论文
  • 注意事项: 不包含原始数据集的test子集
  • 时长: 6580秒,分为10类
  • 更多信息: BOReilly Dataset Page

2. Freesound

  • 文件夹: freesound_class/
  • 许可证: 至少为CC BY-NC 4.0的Creative Commons许可证
  • 元数据: 包含metadata.json,记录原始声音链接和许可证信息
  • 内容: 手工筛选的声音纹理
  • 采样率: 44100Hz
  • 声道: 单声道
  • 时长: 2261秒,分为6类
  • 来源: Freesound.org

3. SynTex

  • 文件夹: syntex_class/
  • 生成工具: SynTex声音纹理生成工具
  • 相关论文: "SynTex: Generating Audio Texture Datasets"
  • 采样率: 44100Hz
  • 声道: 单声道
  • 时长: 7286秒,分为6类

📑 许可证信息

  • BOReillySegmented16K: 参考原始作者的使用条款
  • Freesound: 遵循Creative Commons许可证(见元数据)
  • SynTex: 遵循原始SynTex论文中的许可条款

📬 引用要求

使用本数据集时,请考虑引用各子集的原始数据集或相关论文。

搜集汇总
数据集介绍
main_image_url
构建方式
MicroTex数据集作为一个专业的声音纹理研究资源,其构建过程体现了多源数据融合的学术思路。数据集由三个精心设计的子集构成:BOReillySegmented16K子集基于艺术家Brian O'Reilly的原创作品,包含6580段16kHz采样率的1秒音频片段;Freesound子集通过人工筛选Freesound.org平台上的CC授权素材,确保所有样本符合CC BY-NC 4.0许可要求;SynTex子集则运用声学纹理合成技术生成,源自NIME 2022会议发表的SynTex生成系统。每个子集都经过标准化的采样率处理和类别划分,并保留了完整的元数据信息。
特点
该数据集最显著的特征在于其多模态的数据来源和精细的学术标注。三个子集分别代表真实艺术家创作、社区众包素材和算法生成样本三种不同维度的声音纹理数据,采样率覆盖16kHz至44.1kHz的专业音频标准。数据集特别注重法律合规性,所有样本均明确标注来源和授权协议,其中Freesound子集还包含详细的元数据文件。类别划分方面,各子集根据声学特征分为6-10个纹理类别,总时长超过16,000秒,为机器学习模型提供了丰富的训练素材。
使用方法
在科研应用场景中,MicroTex数据集支持多种音频处理任务的基准测试。研究者可通过HuggingFace平台直接访问各子集文件夹,每个子集均包含标准化的音频文件结构和元数据文档。对于分类任务,建议利用预设的类别标签进行监督学习;生成任务则可重点参考SynTex子集的算法生成范例。使用需注意不同子集的授权差异:BOReilly子集需遵守原始艺术家协议,Freesound素材需满足CC BY-NC 4.0要求,SynTex生成样本则受NIME论文授权条款约束。为保障学术规范性,建议在研究中引用各子集对应的原始文献。
背景与挑战
背景概述
MicroTex数据集是一个专注于声音纹理分析的音频数据集,由多个子集构成,包括BOReillySegmented16K、Freesound和SynTex三个部分。该数据集由多位研究人员和机构共同构建,旨在为机器学习任务如音频纹理分类、生成和分析提供高质量的数据支持。BOReillySegmented16K部分源于声音艺术家Brian O'Reilly的创作,并在evoMusArt会议上发表相关研究;Freesound部分则精选自Freesound.org平台上的开放授权音频;SynTex部分则通过合成工具生成,相关研究发表于NIME 2022会议。该数据集为音频纹理领域的研究提供了多样化的数据资源,推动了声音纹理分析与生成技术的发展。
当前挑战
MicroTex数据集在构建和应用过程中面临多重挑战。在领域问题方面,声音纹理的多样性和复杂性使得分类和生成任务尤为困难,尤其是如何准确捕捉和表征不同纹理的声学特征。数据集的构建过程中,挑战主要体现在数据来源的多样性和质量控制的复杂性上。BOReillySegmented16K部分需要处理原始数据的噪声和不一致性;Freesound部分则需确保所有样本符合特定授权许可,并经过人工筛选以保证数据质量;SynTex部分则需依赖合成工具的生成能力,其结果的真实性和多样性成为关键问题。此外,不同子集的采样率和格式差异也为数据整合带来了技术挑战。
常用场景
经典使用场景
在音频信号处理领域,MicroTex数据集为研究者提供了丰富的声纹纹理样本,尤其适用于机器学习模型的训练与验证。其经典使用场景包括声纹分类、音频生成及纹理分析。通过整合来自不同来源的音频片段,该数据集能够模拟真实世界中的复杂声学环境,为算法开发提供多样化的数据支持。
衍生相关工作
基于MicroTex数据集衍生的经典研究包括声纹合成算法优化和跨模态声音生成。SynTex工具的相关论文开创了合成声纹数据集的新范式,而BOReilly数据集则在进化艺术领域催生了多篇关于声音纹理美学评价的研究。这些工作共同推动了计算声学与机器学习交叉领域的发展。
数据集最近研究
最新研究方向
在计算听觉场景分析与生成式音频建模领域,MicroTex数据集凭借其多源纹理声音的独特架构,正推动着声学表征学习的前沿探索。近期研究聚焦于三个核心方向:基于BOReillySegmented16K子集的时频域特征解耦方法,通过非监督学习从噪声纹理中提取可解释的声学单元;结合Freesound.org开源样本的跨模态检索系统,将纹理声音与视觉纹理建立语义关联;以及利用SynTex合成数据集的参数可控特性,开发轻量化纹理生成对抗网络,实现实时音频纹理的风格迁移与混合。这些研究显著提升了环境音效合成、沉浸式媒体制作等应用的智能化水平。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作