Standardized_Project_Gutenberg_etc

Name: Standardized_Project_Gutenberg_etc
Creator: maas
Published: 2025-11-08 14:47:10
License: 暂无描述

魔搭社区2025-11-08 更新2024-08-31 收录

下载链接：

https://modelscope.cn/datasets/OmniData/Standardized_Project_Gutenberg_etc

下载链接

链接失效反馈

官方服务：

资源简介：

displayName: Standardized Project Gutenberg Corpus labelTypes: - English Corpus license: - CC BY 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1812.08092v1.pdf publishDate: "2018-12-19" publishUrl: https://github.com/pgcorpus/gutenberg-analysis publisher: - University of Milan - Northwestern University tags: - Text taskTypes: - Anomaly Detection - Information Retrieval --- # 数据集介绍 ## 简介标准化项目古腾堡语料库 (SPGC) 是一种开放科学方法，用于整理包含超过 50,000 本书和超过 3×109 个单词标记的完整 PG 数据的精选版本。 ## 引文 ``` @article{gerlach2020standardized, title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics}, author={Gerlach, Martin and Font-Clos, Francesc}, journal={Entropy}, volume={22}, number={1}, pages={126}, year={2020}, publisher={Multidisciplinary Digital Publishing Institute} } ``` ## Download dataset :modelscope-code[]{type="git"}

展示名称：标准化古腾堡语料库（Standardized Project Gutenberg Corpus，SPGC）标签类型：英语语料库许可协议：知识共享署名4.0（CC BY 4.0）媒体类型：文本论文链接：https://arxiv.org/pdf/1812.08092v1.pdf 发布日期：2018年12月19日发布链接：https://github.com/pgcorpus/gutenberg-analysis 发布机构：米兰大学（University of Milan）、西北大学（Northwestern University）标签：文本任务类型：异常检测、信息检索 --- # 数据集介绍 ## 简介标准化古腾堡语料库（SPGC）采用开放科学范式，对完整的古腾堡（Project Gutenberg）项目数据集进行精选整理，该语料库涵盖超过5万部书籍与3×10⁹个单词标记（Token）。 ## 引文 @article{gerlach2020standardized, title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics}, author={Gerlach, Martin and Font-Clos, Francesc}, journal={Entropy}, volume={22}, number={1}, pages={126}, year={2020}, publisher={Multidisciplinary Digital Publishing Institute} } ## 数据集下载 :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-07-12

5,000+

优质数据集

54 个

任务类型

进入经典数据集