mesolitica/unsupervised-malay-youtube-speaker-diarization

Name: mesolitica/unsupervised-malay-youtube-speaker-diarization
Creator: mesolitica
Published: 2023-03-04 13:05:16
License: 暂无描述

Hugging Face2023-03-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mesolitica/unsupervised-malay-youtube-speaker-diarization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自YouTube视频的马来语语音数据，涉及10492个独特的说话者，至少有75小时的语音活动。数据集的预处理步骤包括下载和处理视频文件，每个视频文件保存为pickle格式，包含音频数据、时间戳、自动语音识别（ASR）模型输出和分类模型输出。ASR模型使用了conformer-medium模型，分类模型使用了NEMO TITANET Large说话人验证模型。此外，还使用了PageRank方法对说话者进行分组，根据相似度将说话者数量从10492减少到6085、4312和2912。

提供机构：

mesolitica

原始信息汇总

无监督马来语YouTube视频演讲者数据集

数据集概述

语言: 马来语
演讲者数量: 10492个独特演讲者，每个演讲者至少有75小时的语音活动

数据处理步骤

下载与解压: 下载并解压processed-youtube.tar.gz文件，每个处理后的视频保存为pickle文件，格式为{video_name}.pkl。
Pickle文件内容: 每个pickle文件包含以下字段：
- wav_data: 音频文件路径
- timestamp: 时间戳
- asr_model: 使用最佳模型conformer-medium预测的文本、概率和子词
- classification_model: 使用NEMO TITANET Large演讲者验证模型预测的分类结果

音频处理

所有MP3文件经过后处理，使用噪声减少和语音增强技术。

演讲者分组

使用pagerank方法（scipy.sparse.linalg.gmres）对相似演讲者进行分组：
- 90%相似度：从10492个独特演讲者变为6085个独特演讲者
- 85%相似度：从10492个独特演讲者变为4312个独特演讲者
- 80%相似度：从10492个独特演讲者变为2912个独特演讲者

演讲者命名

演讲者名称定义为：{filename}-{speaker}

示例

查看示例代码和详细步骤：示例链接

5,000+

优质数据集

54 个

任务类型

进入经典数据集