Standardized_Project_Gutenberg_etc
收藏魔搭社区2025-11-08 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Standardized_Project_Gutenberg_etc
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Standardized Project Gutenberg Corpus
labelTypes:
- English Corpus
license:
- CC BY 4.0
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1812.08092v1.pdf
publishDate: "2018-12-19"
publishUrl: https://github.com/pgcorpus/gutenberg-analysis
publisher:
- University of Milan
- Northwestern University
tags:
- Text
taskTypes:
- Anomaly Detection
- Information Retrieval
---
# 数据集介绍
## 简介
标准化项目古腾堡语料库 (SPGC) 是一种开放科学方法,用于整理包含超过 50,000 本书和超过 3×109 个单词标记的完整 PG 数据的精选版本。
## 引文
```
@article{gerlach2020standardized,
title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics},
author={Gerlach, Martin and Font-Clos, Francesc},
journal={Entropy},
volume={22},
number={1},
pages={126},
year={2020},
publisher={Multidisciplinary Digital Publishing Institute}
}
```
## Download dataset
:modelscope-code[]{type="git"}
展示名称:标准化古腾堡语料库(Standardized Project Gutenberg Corpus,SPGC)
标签类型:英语语料库
许可协议:知识共享署名4.0(CC BY 4.0)
媒体类型:文本
论文链接:https://arxiv.org/pdf/1812.08092v1.pdf
发布日期:2018年12月19日
发布链接:https://github.com/pgcorpus/gutenberg-analysis
发布机构:米兰大学(University of Milan)、西北大学(Northwestern University)
标签:文本
任务类型:异常检测、信息检索
---
# 数据集介绍
## 简介
标准化古腾堡语料库(SPGC)采用开放科学范式,对完整的古腾堡(Project Gutenberg)项目数据集进行精选整理,该语料库涵盖超过5万部书籍与3×10⁹个单词标记(Token)。
## 引文
@article{gerlach2020standardized,
title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics},
author={Gerlach, Martin and Font-Clos, Francesc},
journal={Entropy},
volume={22},
number={1},
pages={126},
year={2020},
publisher={Multidisciplinary Digital Publishing Institute}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-12



