five

aidatatang_1505zh

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/aidatatang_1505zh
下载链接
链接失效反馈
官方服务:
资源简介:
1,505小时 中文普通话语音数据集数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)

This 1,505-hour Mandarin Chinese speech dataset has a total duration of 1,505 hours and is a part of the Datatang Mandarin Chinese Speech Database. Its data collection covers all 34 provincial-level administrative regions across China, involving 6,408 participants and over 300,000 colloquial spoken sentences. All recordings were transcribed and annotated by professional speech proofreaders and passed strict quality inspections, achieving a sentence-level annotation accuracy rate of over 98%, which reaches the highest industry standard for sentence-level annotation accuracy. This dataset is exclusively for academic research purposes, and commercial use is strictly prohibited without prior authorization.
提供机构:
OpenDataLab
创建时间:
2023-06-25
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
aidatatang_1505zh是一个1,505小时的中文普通话语音数据集,覆盖全国34个省级行政区域,由6,408人录制超过30万条口语化句子,标注准确率达98%以上,适用于学术研究但禁止商用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作