Nexdata/Cantonese_Script_Data
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Cantonese_Script_Data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Nexdata/Cantonese_Script_Data,包含8200万条粤语文本数据。这些数据来源于粤语脚本文本,适用于自然语言理解和知识库构建等任务。数据收集于2015年,存储格式为txt,语言为粤语,且该数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总
数据集卡片 Nexdata/Cantonese_Script_Data
描述
粤语文本数据,总计8200万条;数据来源于粤语剧本文本;该数据集可用于自然语言理解、知识库构建等任务。
规范
数据内容
8200万条粤语剧本文本
数据规模
8200万条粤语剧本文本
收集周期
2015年
存储格式
txt
语言
粤语
许可信息
商业许可证



