AlabAI/diarizefix
收藏Hugging Face2024-06-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AlabAI/diarizefix
下载链接
链接失效反馈官方服务:
资源简介:
Autodiarize工具库提供了一套全面的工具,用于音频分割、转录和数据集管理。它利用Whisper、NeMo和wav2vec2等先进模型来实现高精度的音频分割和转录。工具库支持单文件和多文件的音频处理,并提供了音频清理、数据集合并、数据集整合等功能。此外,工具库还支持从YouTube视频下载并转换为WAV文件。LJSpeech数据集结构是工具库生成的标准结构,每个输入音频文件会被处理并分配一个编号目录,目录中包含每个说话者的音频片段和对应的元数据文件。
The Autodiarize repository provides a comprehensive set of tools for audio diarization, transcription, and dataset management. It leverages state-of-the-art models like Whisper, NeMo, and wav2vec2 to achieve accurate results. The tools support single-file and bulk audio processing, and include features for audio cleaning, dataset merging, and dataset consolidation. Additionally, the repository supports downloading and converting YouTube videos to WAV files. The LJSpeech dataset structure is the standard structure generated by the tool, where each input audio file is processed and assigned an enumerated directory containing audio segments and corresponding metadata files for each speaker.
提供机构:
AlabAI
原始信息汇总
数据集概述
数据集功能
- 音频分割与转录:使用
diarize.py脚本对单个音频文件进行分割和转录,支持多种参数调整,如模型选择、批处理大小等。 - 批量转录:通过
bulktranscript.py脚本对目录中的多个音频文件进行分割和转录。 - 音频清理:
audio_clean.py脚本用于清理音频文件,包括去除静音、应用EQ和压缩。 - 数据集管理:提供多个脚本用于管理LJSpeech格式的数据集,如合并文件夹、整合数据集和组合数据集。
- YouTube到WAV转换:
youtube_to_wav.py脚本用于下载YouTube视频并转换为WAV格式。
数据集结构
- LJSpeech数据集结构:每个输入音频文件被处理后,分配一个编号目录,如
0/,1/等。每个编号目录下包含多个发言人子目录,如speaker_0/,speaker_1/等。每个发言人目录下存储对应的音频片段文件及metadata.csv文件,记录音频片段的详细信息。
使用方法
- 安装:通过克隆仓库并创建Python虚拟环境来安装。
- 使用:根据需求选择相应的脚本进行操作,如音频处理、数据集管理和YouTube视频转换。
数据集内容
- 音频文件:包括原始音频文件及其处理后的片段文件。
- 元数据文件:每个发言人目录下的
metadata.csv文件,包含音频片段的文件名、发言人标签和转录文本。



