five

Shirali/N_Nazarbayev_Speech_corpus

收藏
Hugging Face2023-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shirali/N_Nazarbayev_Speech_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含9341个手动标记的wav文件,主要来自哈萨克斯坦首任总统努尔苏丹·纳扎尔巴耶夫的在线演讲。其中7919个文件为俄语,1422个文件为哈萨克语。文件时长从0.42秒到13.00秒不等,平均时长为5.71秒。数据集由Nazarabyev大学人机交互实验室的研究团队收集,并可能在未来扩展。

该数据集包含9341个手动标记的wav文件,主要来自哈萨克斯坦首任总统努尔苏丹·纳扎尔巴耶夫的在线演讲。其中7919个文件为俄语,1422个文件为哈萨克语。文件时长从0.42秒到13.00秒不等,平均时长为5.71秒。数据集由Nazarabyev大学人机交互实验室的研究团队收集,并可能在未来扩展。
提供机构:
Shirali
原始信息汇总

数据集概述

数据集来源

数据集内容

  • 包含9341个手动标记的wav文件,总时长约14.8小时。
  • 其中7919个文件(12.1小时)为俄语,1422个文件(2.7小时)为哈萨克语。
  • 文件时长范围:最短0.42秒,最长13.00秒,平均时长5.71秒。

数据集用途

  • 该数据集作为纳扎尔巴耶夫大学人机交互实验室的研究成果,由Bolat Tleubayev, Ruslan Polichshuk, Zhanel Zhexenova, 和 Anara Sandygulova收集。

数据集更新状态

  • 这是一个持续更新的开源项目,未来可能会有所扩展。

文件格式说明

  • .csv文件使用|分隔符,而非,,以避免与标点符号混淆。

许可证

  • 数据集遵循CC0-1.0许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作