mesolitica/unsupervised-malay-youtube-speaker-diarization
收藏Hugging Face2023-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/unsupervised-malay-youtube-speaker-diarization
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自YouTube视频的马来语语音数据,涉及10492个独特的说话者,至少有75小时的语音活动。数据集的预处理步骤包括下载和处理视频文件,每个视频文件保存为pickle格式,包含音频数据、时间戳、自动语音识别(ASR)模型输出和分类模型输出。ASR模型使用了conformer-medium模型,分类模型使用了NEMO TITANET Large说话人验证模型。此外,还使用了PageRank方法对说话者进行分组,根据相似度将说话者数量从10492减少到6085、4312和2912。
该数据集包含来自YouTube视频的马来语语音数据,涉及10492个独特的说话者,至少有75小时的语音活动。数据集的预处理步骤包括下载和处理视频文件,每个视频文件保存为pickle格式,包含音频数据、时间戳、自动语音识别(ASR)模型输出和分类模型输出。ASR模型使用了conformer-medium模型,分类模型使用了NEMO TITANET Large说话人验证模型。此外,还使用了PageRank方法对说话者进行分组,根据相似度将说话者数量从10492减少到6085、4312和2912。
提供机构:
mesolitica
原始信息汇总
无监督马来语YouTube视频演讲者数据集
数据集概述
- 语言: 马来语
- 演讲者数量: 10492个独特演讲者,每个演讲者至少有75小时的语音活动
数据处理步骤
- 下载与解压: 下载并解压
processed-youtube.tar.gz文件,每个处理后的视频保存为pickle文件,格式为{video_name}.pkl。 - Pickle文件内容: 每个pickle文件包含以下字段:
wav_data: 音频文件路径timestamp: 时间戳asr_model: 使用最佳模型conformer-medium预测的文本、概率和子词classification_model: 使用NEMO TITANET Large演讲者验证模型预测的分类结果
音频处理
- 所有MP3文件经过后处理,使用噪声减少和语音增强技术。
演讲者分组
- 使用pagerank方法(scipy.sparse.linalg.gmres)对相似演讲者进行分组:
- 90%相似度:从10492个独特演讲者变为6085个独特演讲者
- 85%相似度:从10492个独特演讲者变为4312个独特演讲者
- 80%相似度:从10492个独特演讲者变为2912个独特演讲者
演讲者命名
- 演讲者名称定义为:
{filename}-{speaker}
示例
- 查看示例代码和详细步骤:示例链接



