93小时俄语语音数据_对话(电话)【数据堂】
收藏OpenDataLab2024-05-31 更新2024-06-01 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang1312
下载链接
链接失效反馈官方服务:
资源简介:
格式
8kHz,8bit,u-law/a-law pcm,单声道
内容分类
录音人从特定的话题列表中选择熟悉的几个,分别录制一段流畅自然的对话
录音条件
相对安静的室内,无回声
录音设备
电话录音系统
录音人信息
总共126人,其中男性58人,女性68人;
国家
俄罗斯
语言地区代码
ru-RU
语言
俄语
标注特点
标注文本内容、句时间戳、说话人标识、性别、噪音标注
准确率
词准确率98%
Format: 8kHz, 8-bit, u-law/a-law PCM, mono
Content Classification: Each speaker selects several familiar topics from a predefined topic list, and records a smooth and natural dialogue segment for each selected topic.
Recording Conditions: Relatively quiet indoor environment without echo.
Recording Equipment: Telephone recording system.
Recorder Information: A total of 126 participants, including 58 males and 68 females.
Country: Russia
Language Region Code: ru-RU
Language: Russian
Annotation Features: Annotated with text content, sentence-level timestamps, speaker identification, gender information and noise annotation.
Accuracy: 98% word accuracy.
提供机构:
shujutang
创建时间:
2024-05-31
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含93小时俄语电话对话语音,基于约30个常见主题模拟录制,由126名俄罗斯本土人参与。数据标注了文本、时间戳、说话人身份和性别等信息,词准确率达98%,格式为8kHz单声道PCM,专为语音识别研究设计,经AI公司验证能提升模型在真实场景中的表现。
以上内容由遇见数据集搜集并总结生成



