中文学科类无监督文本数据
收藏OpenDataLab2023-12-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang-shujutang
下载链接
链接失效反馈官方服务:
资源简介:
学科类内容数据总计约1T左右;每个学科类内容包含标题、内容、作者、时间、一级领域(学科)、二级子领域(知识点);该数据可用于大型语言模型(LLM)训练、chatgpt等任务
The total volume of subject-specific content data is approximately 1 terabyte (1T). Each piece of subject-specific content includes a title, body content, author, publication time, primary discipline domain, and secondary sub-domain (knowledge point). This dataset can be used for training large language models (LLMs), ChatGPT and other related tasks.
提供机构:
shujutang
创建时间:
2023-12-07
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集为中文学科类无监督文本数据,总计约1T,涵盖标题、内容、作者、时间及学科知识点等字段,适用于大型语言模型训练。作为商业数据,它仅面向企业合作购买提供。
以上内容由遇见数据集搜集并总结生成



