THCHS-30
收藏魔搭社区2026-05-15 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/THCHS-30
下载链接
链接失效反馈官方服务:
资源简介:
displayName: THCHS-30
labelTypes:
- Chinese Corpus
- Classification
license:
- THCHS-30 Custom
mediaTypes:
- Audio
paperUrl: https://arxiv.org/pdf/1512.01882v2.pdf
publishDate: "2015"
publishUrl: https://www.openslr.org/18/
publisher:
- Tsinghua University
- Speech and Language Technology Research Center Institute of Linguistics Chinese
Academy of Sciences
tags:
- Speech
taskTypes:
- Speech Recognition
- speech-synthesis
- Multi Task Learning
---
# 数据集介绍
## 简介
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
## 引文
```
"@article{wang2015thchs,
title={Thchs-30: A free chinese speech corpus},
author={Wang, Dong and Zhang, Xuewei},
journal={arXiv preprint arXiv:1512.01882},
year={2015}
}"
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: THCHS-30
labelTypes:
- 中文语料库
- 分类任务
license:
- THCHS-30 自定义许可
mediaTypes:
- 音频
paperUrl: https://arxiv.org/pdf/1512.01882v2.pdf
publishDate: "2015年"
publishUrl: https://www.openslr.org/18/
publisher:
- 清华大学
- 中国科学院语言研究所语音与语言技术研究中心
tags:
- 语音
taskTypes:
- 语音识别
- 语音合成
- 多任务学习
---
# 数据集介绍
## 简介
THCHS-30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音录制于2002年,由王东在清华大学国家重点实验室朱晓燕教授的指导下完成。该数据集前身为TCMSD,即“清华连续普通话语音数据库”,由清华大学计算机科学系智能与系统研究室研发,时隔13年后由王东博士牵头推出,并获得朱晓燕教授的指导与支持。我们期望为语音识别领域的新晋研究者提供一款轻量化的入门测试数据库,因此该数据集对学术用户完全免费。整个软件包包含构建中文语音识别系统所需的全套语音与语言资源。
## 引文
"@article{wang2015thchs,
title={Thchs-30: A free chinese speech corpus},
author={Wang, Dong and Zhang, Xuewei},
journal={arXiv preprint arXiv:1512.01882},
year={2015}
}"
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-12
搜集汇总
数据集介绍

背景与挑战
背景概述
THCHS-30是清华大学发布的开源中文语音数据库,包含构建中文语音识别系统所需的完整资源,完全免费供学术使用。该数据库最初录制于2002年,于2015年公开发布,旨在支持语音识别领域的研究。
以上内容由遇见数据集搜集并总结生成



