five

mkrausio/audiosnippets-cleaned

收藏
Hugging Face2025-01-22 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/mkrausio/audiosnippets-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过清理和重采样的音频片段数据集,适用于音频标注、音频分类等机器学习应用。数据集已经移除了转录和破损字符,所有MP3音频文件统一采样到16kHz,并整理了伴随的JSON元数据,移除了空的标题条目。数据集分为训练集、验证集和测试集,采用WebDataset格式存储,每个tar文件包含MP3格式的音频文件和JSON格式的标题。

This is a cleaned and resampled audio snippet dataset suitable for audio captioning, audio classification, and other audio-based machine learning applications. Transcriptions and broken characters have been removed, all MP3 audio files have been resampled to 16kHz, and the accompanying JSON metadata has been standardized. Empty caption entries have been removed. The dataset is divided into training, validation, and test sets, stored in the WebDataset format with each tar file containing MP3 audio files and JSON caption files.
提供机构:
mkrausio
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作