five

Nexdata/200475_Sentences_Chinese_Text_Normalization_Data

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/200475_Sentences_Chinese_Text_Normalization_Data
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 --- ## Description 200,475 Sentences - Chinese Text Normalization Data. Annotate the special symbols and Arabic numerals in the sentences as Chinese characters. For more details, please refer to the link: https://www.nexdata.ai/dataset/1102?source=Huggingface # Specifications ## Data content 200,475 sentences of text were transcribed in Chinese characters; ## Data scale 200,475 original texts with 457,832 annotations; ## Content source Sentences extracted from various types of news, articles, novels, etc. ## Language Chinese; ## Annotation Annotate the special symbols and Arabic numerals in the sentences as Chinese characters; ## Applications TTS, Text normalization; # Licensing Information Commercial License

--- 许可协议:知识共享署名-非商业性使用-禁止演绎4.0(CC BY-NC-ND 4.0) --- ## 数据集描述 200,475条语句——中文文本归一化(Chinese Text Normalization)数据集。需将语句中的特殊符号与阿拉伯数字标注为中文汉字。 如需了解更多详情,请访问链接:https://www.nexdata.ai/dataset/1102?source=Huggingface # 数据集规格 ## 数据内容 已使用汉字转录200,475条文本语句; ## 数据规模 共计200,475条原始文本,包含457,832处标注; ## 内容来源 取自各类新闻、文章、小说等公开文本中的语句; ## 语言 中文; ## 标注规则 将语句中的特殊符号与阿拉伯数字转换为中文汉字进行标注; ## 应用场景 可用于语音合成(Text-to-Speech, TTS)与文本归一化任务; # 许可信息 商业许可(Commercial License)
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 数据集名称: 中文文本规范化数据
  • 数据规模: 200,475 句文本,包含457,832 个注释
  • 语言: 中文
  • 许可证: CC-BY-NC-ND-4.0

数据内容

  • 内容来源: 从各类新闻、文章、小说等中提取的句子
  • 注释类型: 将句子中的特殊符号和阿拉伯数字注释为中文汉字

应用领域

  • 主要应用: 语音合成(TTS)、文本规范化
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含200,475个中文句子,主要用于文本规范化任务,特别标注了特殊符号和阿拉伯数字对应的汉字。数据来源于多种文本类型,适用于TTS和文本处理应用,需付费获取完整数据集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作