Standardized Project Gutenberg Corpus

Name: Standardized Project Gutenberg Corpus
Creator: OpenDataLab
Published: 2026-05-24 06:30:11
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Standardized_Project_Gutenberg_etc

下载链接

链接失效反馈

官方服务：

资源简介：

标准化项目古腾堡语料库 (SPGC) 是一种开放科学方法，用于整理包含超过 50,000 本书和超过 3×109 个单词标记的完整 PG 数据的精选版本。

Standardized Project Gutenberg Corpus (SPGC) is an open-science initiative that provides a curated version of the full Project Gutenberg (PG) dataset, which contains over 50,000 books and more than 3 × 10⁹ word tokens.

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

背景与挑战

背景概述

标准化项目古腾堡语料库 (SPGC) 是一个精选的开放科学数据集，包含超过50,000本书和30亿单词标记，主要用于自然语言统计分析和定量语言学研究。该数据集由米兰大学和西北大学于2018年12月19日发布，适用于文本预训练、异常检测和信息检索等领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集