five

93小时俄语语音数据_对话(电话)【数据堂】

收藏
OpenDataLab2024-05-31 更新2024-06-01 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang1312
下载链接
链接失效反馈
官方服务:
资源简介:
格式 8kHz,8bit,u-law/a-law pcm,单声道 内容分类 录音人从特定的话题列表中选择熟悉的几个,分别录制一段流畅自然的对话 录音条件 相对安静的室内,无回声 录音设备 电话录音系统 录音人信息 总共126人,其中男性58人,女性68人; 国家 俄罗斯 语言地区代码 ru-RU 语言 俄语 标注特点 标注文本内容、句时间戳、说话人标识、性别、噪音标注 准确率 词准确率98%

Format: 8kHz, 8-bit, u-law/a-law PCM, mono Content Classification: Each speaker selects several familiar topics from a predefined topic list, and records a smooth and natural dialogue segment for each selected topic. Recording Conditions: Relatively quiet indoor environment without echo. Recording Equipment: Telephone recording system. Recorder Information: A total of 126 participants, including 58 males and 68 females. Country: Russia Language Region Code: ru-RU Language: Russian Annotation Features: Annotated with text content, sentence-level timestamps, speaker identification, gender information and noise annotation. Accuracy: 98% word accuracy.
提供机构:
shujutang
创建时间:
2024-05-31
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含93小时俄语电话对话语音,基于约30个常见主题模拟录制,由126名俄罗斯本土人参与。数据标注了文本、时间戳、说话人身份和性别等信息,词准确率达98%,格式为8kHz单声道PCM,专为语音识别研究设计,经AI公司验证能提升模型在真实场景中的表现。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务