five

755小时普通话音频数据集

收藏
贵阳数据交易所2024-07-23 更新2024-07-25 收录
下载链接:
https://www.gzdex.com.cn/market/detail/3721
下载链接
链接失效反馈
官方服务:
资源简介:
语料库包含755小时的语音数据,主要是通过移动设备录制。邀请来自中国不同口音地区的1080名发音者参与录音。语音转录准确率高于98%。数据库按照51:1:2的比例划分为训练集、验证集和测试集。语音数据编码和发音者信息等详细信息保存在元数据文件中。录音文本领域多样,包括互动问答、音乐搜索、社交网络消息、家庭指令等。

This corpus contains 755 hours of speech data primarily recorded via mobile devices. A total of 1080 speakers from various accent regions across China were invited to participate in the recording sessions. The accuracy rate of speech transcription exceeds 98%. The database is split into training, validation and test sets with a ratio of 51:1:2. Detailed information such as speech data encoding and speaker profiles is stored in the metadata files. The recorded texts cover diverse domains, including interactive Q&A, music search, social network messages, home commands and other scenarios.
提供机构:
北京晴数智慧科技有限公司
创建时间:
2024-07-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含755小时通过移动设备录制的普通话语音,来自1080名不同口音地区的发音者,转录准确率达98%以上。数据按51:1:2比例划分为训练/验证/测试集,涵盖问答、音乐搜索、社交消息等多领域文本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作