enhanced-audiosnippets-long-2-8M

Hugging Face2026-03-17 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/ai-music4you3/enhanced-audiosnippets-long-2-8M

下载链接

链接失效反馈

官方服务：

资源简介：

Enhanced Audiosnippets Long 2.8M 是一个经过增强的音频数据集，包含 2,633,037 个样本，总计 4,932 小时的音频内容。音频格式为 WAV，采样率为 48kHz，单声道。数据集通过多个处理流程增强，包括语音增强、情感标注、说话人嵌入和全面的元数据分析。每个音频样本都附带有 JSON 元数据，包含样本 ID、持续时间、原始字幕、转录、情感向量、详细情感描述、BUD-E Whisper 描述、59 维情感/属性分数、128 维说话人嵌入等字段。数据集适用于音频分类、文本到语音转换、自动语音识别等任务，并提供了预处理的元数据文件和 FAISS 索引以支持高效分析。此外，数据集还包含按情感和属性分类的子集，便于特定任务的使用。

Enhanced Audiosnippets Long 2.8M is an enhanced audio dataset comprising 2,633,037 samples with a total duration of 4,932 hours. The audio is stored in WAV format, with a sampling rate of 48kHz and single-channel (mono) configuration. The dataset is enhanced through multiple processing pipelines, including speech enhancement, emotion annotation, speaker embedding extraction and comprehensive metadata analysis. Each audio sample is accompanied by JSON-format metadata, which covers fields such as sample ID, duration, original subtitles, transcription, emotion vector, detailed emotion description, BUD-E Whisper description, 59-dimensional emotion/attribute scores, 128-dimensional speaker embeddings and more. This dataset is applicable to tasks including audio classification, text-to-speech conversion, automatic speech recognition and others. Preprocessed metadata files and FAISS indexes are provided to support efficient analysis. In addition, the dataset contains subsets classified by emotion and attribute, which facilitates the application for specific tasks.

创建时间：

2026-03-09

5,000+

优质数据集

54 个

任务类型

进入经典数据集