Nexdata/Unsupervised_Text_Data_For_Literary_Subjects

Name: Nexdata/Unsupervised_Text_Data_For_Literary_Subjects
Creator: Nexdata
Published: 2024-04-17 03:30:15
License: 暂无描述

Hugging Face2024-04-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/Unsupervised_Text_Data_For_Literary_Subjects

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于文学主题的无监督文本数据集，总大小约为1TB。每个数据条目包含标题、文本、作者、日期、主题和关键词。该数据集可用于LLM训练、聊天机器人等任务。数据收集方法是通过关键词从海量数据库中检索，存储格式为json，语言为中文。

This is an unsupervised text dataset focused on literary themes, with a total size of approximately 1 TB. Each data entry includes title, text, author, date, topic and keywords. This dataset can be used for tasks such as LLM training and chatbot development. The data was collected by retrieving from massive databases via keywords, stored in JSON format, and all texts are in Chinese.

提供机构：

Nexdata

原始信息汇总

数据集卡片 Nexdata/Unsupervised_Text_Data_For_Literary_Subjects

描述

主题内容数据，总计约1TB；每条主题内容包含标题、文本、作者、日期、主题、关键词；此数据集可用于LLM训练、chatgpt等任务。

规范

数据内容

新闻内容数据，约79个主题。

数据大小

约1TB。

数据字段

文本数据，包含标题、文本、作者、日期、主题、关键词。

收集方法

使用关键词从大规模数据库中检索数据，关键词为主题和关键词。

存储格式

json格式。

语言

中文。

许可信息

商业许可。

5,000+

优质数据集

54 个

任务类型

进入经典数据集