five

mesolitica/unsupervised-malay-youtube-speaker-diarization

收藏
Hugging Face2023-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/unsupervised-malay-youtube-speaker-diarization
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自YouTube视频的马来语语音数据,涉及10492个独特的说话者,至少有75小时的语音活动。数据集的预处理步骤包括下载和处理视频文件,每个视频文件保存为pickle格式,包含音频数据、时间戳、自动语音识别(ASR)模型输出和分类模型输出。ASR模型使用了conformer-medium模型,分类模型使用了NEMO TITANET Large说话人验证模型。此外,还使用了PageRank方法对说话者进行分组,根据相似度将说话者数量从10492减少到6085、4312和2912。

该数据集包含来自YouTube视频的马来语语音数据,涉及10492个独特的说话者,至少有75小时的语音活动。数据集的预处理步骤包括下载和处理视频文件,每个视频文件保存为pickle格式,包含音频数据、时间戳、自动语音识别(ASR)模型输出和分类模型输出。ASR模型使用了conformer-medium模型,分类模型使用了NEMO TITANET Large说话人验证模型。此外,还使用了PageRank方法对说话者进行分组,根据相似度将说话者数量从10492减少到6085、4312和2912。
提供机构:
mesolitica
原始信息汇总

无监督马来语YouTube视频演讲者数据集

数据集概述

  • 语言: 马来语
  • 演讲者数量: 10492个独特演讲者,每个演讲者至少有75小时的语音活动

数据处理步骤

  1. 下载与解压: 下载并解压processed-youtube.tar.gz文件,每个处理后的视频保存为pickle文件,格式为{video_name}.pkl
  2. Pickle文件内容: 每个pickle文件包含以下字段:
    • wav_data: 音频文件路径
    • timestamp: 时间戳
    • asr_model: 使用最佳模型conformer-medium预测的文本、概率和子词
    • classification_model: 使用NEMO TITANET Large演讲者验证模型预测的分类结果

音频处理

  • 所有MP3文件经过后处理,使用噪声减少和语音增强技术。

演讲者分组

  • 使用pagerank方法(scipy.sparse.linalg.gmres)对相似演讲者进行分组:
    • 90%相似度:从10492个独特演讲者变为6085个独特演讲者
    • 85%相似度:从10492个独特演讲者变为4312个独特演讲者
    • 80%相似度:从10492个独特演讲者变为2912个独特演讲者

演讲者命名

  • 演讲者名称定义为:{filename}-{speaker}

示例

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作