PleIAs/Chinese-PD
收藏Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Chinese-PD
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Public Domain(中文公共领域)是一个旨在聚合所有中文公共领域专著和期刊的大型数据集。该数据集包含3,555个标题,总计88,099,358字,来源于互联网档案馆。每个parquet文件包含随机选择的2,000本书的全文。数据集的构建遵循中国公共领域作品的标准,即作者去世超过50年的出版物。截至2024年3月,数据集仅包含1884年之前出版的标题,未来计划扩展到19世纪末和20世纪初的出版物。数据集主要用于大型语言模型的训练,并且可以无限制地用于模型训练和再发布。数据集完全属于公共领域,未来工作包括扩展数据集、纠正OCR错误和增强文本结构。
提供机构:
PleIAs
原始信息汇总
数据集概述
数据集名称
Chinese-Public Domain 或 Chinese-PD
数据集描述
这是一个大型集合,旨在聚合所有中国公共领域的专著和期刊。
数据集内容
- 包含3,555个标题,总计88,099,358字,从互联网档案馆恢复。
- 每个parquet文件包含随机选择的2,000本书的全文。
数据集构成
遵循中华人民共和国公共领域作品的标准:任何作者去世超过50年的出版物。
数据集使用
- 旨在扩大开放作品的可用性,用于大型语言模型的训练。
- 文本可用于模型训练和无限制地重新发布,以实现可重复性。
许可证
整个集合在全球范围内均属于公共领域,意味着每个个体或集体版权持有人的遗产权利已过期。
未来工作
- 计划扩展数据集至19世纪末和20世纪初的作品,并进一步增强,包括来自欧洲遗产数据存储库的当前未利用的集合。
- 修正文本中的计算机生成错误,所有文本通过光学字符识别(OCR)软件自动转录。
- 增强原始文本的结构/编辑呈现,以适应大规模分析或模型训练。



