five

Nexdata/Unsupervised_Text_Data_For_Literary_Subjects

收藏
Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Unsupervised_Text_Data_For_Literary_Subjects
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于文学主题的无监督文本数据集,总大小约为1TB。每个数据条目包含标题、文本、作者、日期、主题和关键词。该数据集可用于LLM训练、聊天机器人等任务。数据收集方法是通过关键词从海量数据库中检索,存储格式为json,语言为中文。

This is an unsupervised text dataset focused on literary themes, with a total size of approximately 1 TB. Each data entry includes title, text, author, date, topic and keywords. This dataset can be used for tasks such as LLM training and chatbot development. The data was collected by retrieving from massive databases via keywords, stored in JSON format, and all texts are in Chinese.
提供机构:
Nexdata
原始信息汇总

数据集卡片 Nexdata/Unsupervised_Text_Data_For_Literary_Subjects

描述

主题内容数据,总计约1TB;每条主题内容包含标题、文本、作者、日期、主题、关键词;此数据集可用于LLM训练、chatgpt等任务。

规范

数据内容

新闻内容数据,约79个主题。

数据大小

约1TB。

数据字段

文本数据,包含标题、文本、作者、日期、主题、关键词。

收集方法

使用关键词从大规模数据库中检索数据,关键词为主题和关键词。

存储格式

json格式。

语言

中文。

许可信息

商业许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作