Nexdata/200475_Sentences_Chinese_Text_Normalization_Data
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/200475_Sentences_Chinese_Text_Normalization_Data
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-nd-4.0
---
## Description
200,475 Sentences - Chinese Text Normalization Data. Annotate the special symbols and Arabic numerals in the sentences as Chinese characters.
For more details, please refer to the link: https://www.nexdata.ai/dataset/1102?source=Huggingface
# Specifications
## Data content
200,475 sentences of text were transcribed in Chinese characters;
## Data scale
200,475 original texts with 457,832 annotations;
## Content source
Sentences extracted from various types of news, articles, novels, etc.
## Language
Chinese;
## Annotation
Annotate the special symbols and Arabic numerals in the sentences as Chinese characters;
## Applications
TTS, Text normalization;
# Licensing Information
Commercial License
---
许可协议:知识共享署名-非商业性使用-禁止演绎4.0(CC BY-NC-ND 4.0)
---
## 数据集描述
200,475条语句——中文文本归一化(Chinese Text Normalization)数据集。需将语句中的特殊符号与阿拉伯数字标注为中文汉字。
如需了解更多详情,请访问链接:https://www.nexdata.ai/dataset/1102?source=Huggingface
# 数据集规格
## 数据内容
已使用汉字转录200,475条文本语句;
## 数据规模
共计200,475条原始文本,包含457,832处标注;
## 内容来源
取自各类新闻、文章、小说等公开文本中的语句;
## 语言
中文;
## 标注规则
将语句中的特殊符号与阿拉伯数字转换为中文汉字进行标注;
## 应用场景
可用于语音合成(Text-to-Speech, TTS)与文本归一化任务;
# 许可信息
商业许可(Commercial License)
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 数据集名称: 中文文本规范化数据
- 数据规模: 200,475 句文本,包含457,832 个注释
- 语言: 中文
- 许可证: CC-BY-NC-ND-4.0
数据内容
- 内容来源: 从各类新闻、文章、小说等中提取的句子
- 注释类型: 将句子中的特殊符号和阿拉伯数字注释为中文汉字
应用领域
- 主要应用: 语音合成(TTS)、文本规范化
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含200,475个中文句子,主要用于文本规范化任务,特别标注了特殊符号和阿拉伯数字对应的汉字。数据来源于多种文本类型,适用于TTS和文本处理应用,需付费获取完整数据集。
以上内容由遇见数据集搜集并总结生成



