five

数据堂—8,200万条粤语剧本文本数据

收藏
魔搭社区2026-05-21 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/82MillionCantoneseScriptData
下载链接
链接失效反馈
官方服务:
资源简介:
粤语剧本文本数据总计8,200万条;数据内容采集自粤语剧本文本;数据可用于自然语言理解,知识库构建等任务。

There are a total of 82 million pieces of Cantonese drama script text data in this dataset. The data is collected from Cantonese drama script texts, and can be utilized for tasks such as natural language understanding and knowledge base construction.
提供机构:
maas
创建时间:
2024-04-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集由数据堂提供,包含8200万条从粤语剧本中采集的文本数据,适用于自然语言理解等任务。数据以txt格式存储,采集于2015年,版权归属数据堂且支持商业用途。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务