five

Nexdata/Russian_Spontaneous_Speech_Data

收藏
Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Russian_Spontaneous_Speech_Data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含503小时的俄语自发语音数据,涵盖了多个主题。所有语音音频都经过人工转录为文本内容,并且标注了说话者身份、性别等信息。数据集适用于声纹识别模型训练、机器翻译语料库构建以及算法研究。数据格式为16kHz、16bit、单声道,内容包括教育、访谈、体育等类别,语言为俄语。应用场景包括语音识别、视频字幕生成和视频内容审核,单词准确率(WAR)不低于98%。数据集采用商业许可。

This dataset contains 503 hours of spontaneous Russian speech data spanning a wide variety of topics. All speech audio has been manually transcribed into text, and annotated with speaker identity, gender and other relevant information. It is applicable for training speaker verification models, building machine translation corpora and carrying out algorithmic research. The audio data is formatted as 16 kHz, 16-bit, single-channel (mono), with content falling into categories such as education, interviews, sports and more, and the language is Russian. Its application scenarios include speech recognition, video subtitle generation and video content moderation, with a Word Accuracy Rate (WAR) of no less than 98%. This dataset is provided under a commercial license.
提供机构:
Nexdata
原始信息汇总

数据集卡片 Nexdata/Russian_Spontaneous_Speech_Data

描述

  • 时长:503小时
  • 语言:俄语
  • 内容:涵盖多个主题,包括教育、采访、体育等
  • 格式:16kHz,16bit,单声道
  • 标注:语音音频被手动转录为文本内容,并标注说话者身份、性别等信息
  • 应用场景:语音识别、视频字幕生成和视频内容审核
  • 准确率:单词准确率(WAR)不低于98%

许可证信息

商业许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作