Nexdata/Chinese_Mandarin_Multi-emotional_Synthesis_Corpus
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Chinese_Mandarin_Multi-emotional_Synthesis_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-to-speech
language:
- zh
---
# Dataset Card for Nexdata/Chinese_Mandarin_Multi-emotional_Synthesis_Corpus
## Description
22 People - Chinese Mandarin Multi-emotional Synthesis Corpus. It is recorded by Chinese native speaker, covering different ages and genders. six emotional text, and the syllables, phonemes and tones are balanced. Professional phonetician participates in the annotation. It precisely matches with the research and development needs of the speech synthesis.
For more details, please refer to the link: https://www.nexdata.ai/datasets/1214?source=Huggingface
# Specifications
## Format
48,000Hz, 24bit, uncompressed wav, mono channel
## Recording environment
professional recording studio
## Recording content
seven emotions (happiness, anger, sadness, surprise, fear, disgust)
## Speaker
22 persons, different age groups and genders
## Device
microphone
## Language
Mandarin
## Annotation
word and pinyin transcription, prosodic boundary annotation
## Application scenarios
speech synthesis
## The amount of data
The amount of data for per person is 140 minutes, each emotion is 20 minutes
# Licensing Information
Commercial License
任务类别:文本转语音(text-to-speech)
语言:中文(zh)
# 数据集卡片:Nexdata/中文普通话多情感合成语料库(Chinese_Mandarin_Multi-emotional_Synthesis_Corpus)
## 描述
本数据集为22人份中文普通话多情感合成语料库。语料由汉语母语者录制,覆盖不同年龄与性别群体,包含六种情感文本,且音节、音素与声调分布均衡。专业语音学家参与标注工作,该语料库完全契合语音合成的研发需求。
更多详情请参阅链接:https://www.nexdata.ai/datasets/1214?source=Huggingface
# 规格参数
## 格式
48kHz、24位非压缩WAV格式,单声道
## 录制环境
专业录音棚
## 录制内容
六种情感(喜悦、愤怒、悲伤、惊讶、恐惧、厌恶)
## 发声者
共22人,涵盖不同年龄层与性别
## 录制设备
麦克风
## 语言
普通话
## 标注内容
汉字与拼音转写、韵律边界标注
## 应用场景
语音合成
## 数据规模
每位录制者对应140分钟语料,单种情感对应20分钟语料
# 授权信息
商业授权
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集名称
Nexdata/Chinese_Mandarin_Multi-emotional_Synthesis_Corpus
描述
该数据集包含22位中国母语者的普通话多情感合成语料,涵盖不同年龄和性别。数据集包含六种情感文本,音节、音素和声调平衡,由专业语音学家参与标注,精确匹配语音合成研究和开发需求。
规格
格式
- 采样率:48,000Hz
- 位深度:24bit
- 格式:未压缩wav,单声道
录音环境
专业录音工作室
录音内容
- 情感种类:七种(快乐、愤怒、悲伤、惊讶、恐惧、厌恶)
发言人
- 人数:22人
- 特征:不同年龄和性别
设备
麦克风
语言
普通话
标注
- 内容:字和拼音转录,韵律边界标注
应用场景
语音合成
数据量
- 每人数据量:140分钟
- 每种情感数据量:20分钟
许可信息
商业许可
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



