five

Standardized_Project_Gutenberg_etc

收藏
魔搭社区2025-11-08 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Standardized_Project_Gutenberg_etc
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Standardized Project Gutenberg Corpus labelTypes: - English Corpus license: - CC BY 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1812.08092v1.pdf publishDate: "2018-12-19" publishUrl: https://github.com/pgcorpus/gutenberg-analysis publisher: - University of Milan - Northwestern University tags: - Text taskTypes: - Anomaly Detection - Information Retrieval --- # 数据集介绍 ## 简介 标准化项目古腾堡语料库 (SPGC) 是一种开放科学方法,用于整理包含超过 50,000 本书和超过 3×109 个单词标记的完整 PG 数据的精选版本。 ## 引文 ``` @article{gerlach2020standardized, title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics}, author={Gerlach, Martin and Font-Clos, Francesc}, journal={Entropy}, volume={22}, number={1}, pages={126}, year={2020}, publisher={Multidisciplinary Digital Publishing Institute} } ``` ## Download dataset :modelscope-code[]{type="git"}

展示名称:标准化古腾堡语料库(Standardized Project Gutenberg Corpus,SPGC) 标签类型:英语语料库 许可协议:知识共享署名4.0(CC BY 4.0) 媒体类型:文本 论文链接:https://arxiv.org/pdf/1812.08092v1.pdf 发布日期:2018年12月19日 发布链接:https://github.com/pgcorpus/gutenberg-analysis 发布机构:米兰大学(University of Milan)、西北大学(Northwestern University) 标签:文本 任务类型:异常检测、信息检索 --- # 数据集介绍 ## 简介 标准化古腾堡语料库(SPGC)采用开放科学范式,对完整的古腾堡(Project Gutenberg)项目数据集进行精选整理,该语料库涵盖超过5万部书籍与3×10⁹个单词标记(Token)。 ## 引文 @article{gerlach2020standardized, title={A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics}, author={Gerlach, Martin and Font-Clos, Francesc}, journal={Entropy}, volume={22}, number={1}, pages={126}, year={2020}, publisher={Multidisciplinary Digital Publishing Institute} } ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作