freesound-laion-640k-commercial-16khz-large

Hugging Face2024-09-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/benjamin-paine/freesound-laion-640k-commercial-16khz-large

下载链接

链接失效反馈

官方服务：

资源简介：

FreeSound LAION 640k数据集的一个训练分割，专门用于允许商业作品的许可证，并重新采样到16khz。包含200,000个独特的声音，总计18.7 GB。适用于不需要高保真度和标签的用例，例如增强其他数据集的背景音频。

创建时间：

2024-09-08

原始信息汇总

FreeSound.org LAION-640k Dataset (16 KHz, Large)

数据集概述

名称: FreeSound.org LAION-640k Dataset (16 KHz, Large)
版本: Large
大小: 18.7 GB
音频数量: 200,000
采样率: 16 KHz
适用场景: 适用于需要多样化音频但不要求高保真度和标签的场景，如数据集增强的背景音频。

数据集版本

Full: 403,146 个音频，37.5 GB
Large: 200,000 个音频，18.7 GB
Medium: 100,000 个音频，9.29 GB
Small: 50,000 个音频，4.64 GB
Tiny: 20,000 个音频，1.84 GB

数据集特征

audio: 音频数据
username: 用户名
freesound_id: 音频ID
license: 许可证类型
- CC0-1.0
- CC-BY-4.0
- CC-BY-3.0
- CC-BY-NC-3.0
- CC-BY-NC-4.0
- CC-Sampling+
attribution_required: 是否需要署名
- No
- Yes
commercial_use: 是否允许商业使用
- No
- Yes

数据集分割

train: 200,000 个样本，18.7 GB

许可证

LAION数据集元数据: MIT License
音频: 以下四种许可证之一
- CC0-1.0
- CC-BY 4.0
- CC-BY 3.0
- CC-Sampling+

数据来源

LAION-Audio-630K 是一个包含633,526对音频-文本数据的大型数据集，总时长为4,325.39小时。包含人类活动、自然声音和音频效果。

贡献者

数据集的收集和使用由德国非营利研究组织LAION进行。所有贡献者和收集者被视为LAION的开源贡献者。

搜集汇总

数据集介绍

构建方式

该数据集基于FreeSound LAION 640k完整数据集构建，仅保留了允许商业用途的音频样本，并通过`torchaudio.transforms.Resample`将其重采样至16kHz。数据集的构建过程涉及对完整数据集的标签元数据进行特征向量生成，随后使用k-means聚类方法对特征向量进行聚类，最终通过轮询方式从每个聚类中采样，以达到所需的数据集规模。

特点

该数据集包含200,000个独特的音频样本，总大小为18.7GB，涵盖了多种音频类型，适用于需要多样化音频但不需要高保真度和详细标签的场景。每个音频样本均附带用户名、FreeSound ID、许可证信息、是否需要署名以及是否允许商业使用等元数据。数据集特别适合用于增强其他数据集的背景音频。

使用方法

用户可通过Hugging Face平台访问该数据集，并根据需要下载不同规模的版本（如large、medium、small、tiny）。下载后，用户可通过提供的元数据信息（如用户名和FreeSound ID）重构音频文件的下载链接，格式为`https://freesound.org/people/{username}/sound/{id}`。在使用音频时，需仔细阅读并遵守相应的许可证条款，确保符合项目的法律要求。

背景与挑战

背景概述

freesound-laion-640k-commercial-16khz-large数据集是由LAION（Large-scale Artificial Intelligence Open Network）组织与FreeSound.org合作构建的大规模音频数据集，旨在为音频处理和机器学习研究提供丰富的音频资源。该数据集创建于2022年，主要研究人员包括LAION的社区贡献者，如@marianna13、@Chr0my等。数据集的核心研究问题在于如何高效地整合和利用来自不同来源的音频数据，以支持音频分类、音频生成等任务。作为目前公开的最大音频文本数据集之一，LAION-Audio-630K及其子集对音频领域的研究具有重要影响力，尤其是在音频-文本对齐和多模态学习方面。

当前挑战

freesound-laion-640k-commercial-16khz-large数据集在构建和应用中面临多重挑战。首先，音频数据的多样性和复杂性使得数据清洗和标注成为一项艰巨任务，尤其是在处理来自不同来源的音频时，确保数据的一致性和质量尤为关键。其次，数据集的构建过程中需要解决版权和许可问题，确保所有音频均符合商业使用要求。此外，音频数据的采样和降噪处理也对数据集的实用性提出了挑战，尤其是在保持音频质量的同时降低存储和计算成本。最后，如何有效利用该数据集进行音频分类、音频生成等任务，仍需要进一步的研究和优化，以充分发挥其潜力。

常用场景

经典使用场景

在音频处理和机器学习领域，freesound-laion-640k-commercial-16khz-large数据集广泛应用于音频分类和音频到音频的转换任务。该数据集包含了大量经过16kHz重采样的音频文件，适用于需要多样化音频背景但不需要高保真度和详细标签的场景，如数据增强和背景音效生成。

解决学术问题

该数据集解决了音频处理领域中数据稀缺和多样性不足的问题。通过提供大量经过许可的商业用途音频，研究人员可以更有效地训练和验证音频分类模型，提升模型在复杂音频环境中的泛化能力。此外，该数据集还为音频生成和转换任务提供了丰富的素材，推动了音频生成技术的发展。

衍生相关工作

基于该数据集，研究人员开发了多种音频处理模型和算法，如基于深度学习的音频分类器和音频生成网络。这些工作不仅提升了音频处理的自动化水平，还为音频内容的创新应用提供了技术支持。此外，该数据集还促进了音频数据集的标准化和共享，推动了音频研究领域的开放合作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集