Corpus-DB

github2019-02-02 更新2024-05-31 收录

下载链接：

https://github.com/ChunLi1997/corpus-db

下载链接

链接失效反馈

官方服务：

资源简介：

Corpus-DB是一个文本语料库数据库，用于数字人文领域。该项目聚合了公共领域的文本，并从维基百科等来源增强其元数据，然后根据这些元数据提供文本访问。用户可以下载特定子集，如教育小说、狄更斯小说、1880年代出版的诗歌以及设定在伦敦的小说等。

Corpus-DB is a text corpus database designed for the field of digital humanities. This project aggregates texts from the public domain and enhances their metadata from sources such as Wikipedia, subsequently providing access to texts based on this metadata. Users can download specific subsets, such as educational novels, Dickens' novels, poetry published in the 1880s, and novels set in London.

创建时间：

2018-08-05

原始信息汇总

Corpus-DB 数据集概述

数据集描述

Corpus-DB 是一个为数字人文领域设计的文本语料库数据库。该数据库聚合了公共领域的文本，并通过从维基百科等来源增强其元数据，使得这些文本根据元数据可被访问。用户可以下载特定子语料库，如：

教育小说
狄更斯的小说
1880年代出版的诗歌
设定在伦敦的小说

数据集组件

用于聚合元数据的Python脚本
当前由几个SQLite数据库组成的数据库
用Haskell编写的REST API，用于查询数据库（目前正在开发中）
主要使用Python进行的分析实验

数据集使用

使用Haskell工具stack构建网站和API
提供了一个30行的开发数据库子集，用于开发和测试，主数据库由于体积过大（目前16GB）未存储在GitHub上

未来计划

重写Corpus-DB以实现整个工具链的可重复性和未来兼容性
计划包括解析Project Gutenberg的RDF/XML元数据，使用rsync脚本镜像PG，清理PG文本并添加到数据库，以及编写使用Persistent的ORM层数据库层，以实现更原生的数据库交互和类型安全查询

搜集汇总

数据集介绍

构建方式

Corpus-DB数据集的构建，主要通过聚合公共领域文本，并从诸如Wikipedia等来源增强其元数据，进而根据这些元数据提供文本下载服务。该过程涉及Python编写的元数据聚合脚本、数个SQLite数据库以及一个用Haskell编写的REST API。

特点

该数据集的特点在于其聚合了多种类型的文本子集，如Bildungsromans、Dickens小说、19世纪80年代出版的诗歌以及设定在伦敦的小说等。此外，数据集通过REST API支持便捷的数据库查询，并为文本分析实验提供了丰富的资源。

使用方法

使用Corpus-DB数据集，首先需要具备Python或Haskell的编程知识，以及对图书馆或文献学有一定的了解。可通过项目提供的脚本构建网站和API，使用Haskell工具`stack`进行编译和运行。对于开发环境，可使用包含30行数据的子集数据库进行测试，若需完整数据库，则需联系项目维护者。

背景与挑战

背景概述

Corpus-DB是一个为数字人文学科而构建的文本语料库数据库项目。该项目搜集公共领域文本，从诸如维基百科等来源增强其元数据，并根据这些元数据提供文本下载服务。该数据库的创建可追溯至数字人文领域对于便捷获取特定子语料库的需求，如教育小说、狄更斯小说、19世纪80年代出版的诗歌以及设定在伦敦的小说等。该项目由Jonathan Reevew发起，依托Python编写的元数据聚合脚本，采用SQLite数据库存储，并以Haskell语言开发REST API进行数据库查询。Corpus-DB不仅对数字人文领域的研究提供了丰富资源，也促进了文本分析与挖掘技术的发展，对相关领域产生了显著影响。

当前挑战

尽管Corpus-DB为研究者提供了丰富的文本资源，但在构建过程中也面临诸多挑战。首先，如何高效聚合并清洗大量公共领域文本，保持数据的一致性和准确性是一大挑战。其次，构建一个可扩展、可重复且具备未来数据适应性的数据库架构，也是开发团队需要解决的难题。此外，项目在API的开发以及数据库的查询性能优化方面也遭遇了技术挑战。目前，项目正在进行2.0版本的改写，以增强工具链的稳定性和数据的完整性，确保能够适应Project Gutenberg等来源的新文本的摄入。

常用场景

经典使用场景

在数字人文学科的领域中，Corpus-DB文本语料库数据库以其聚合公域文本和增强元数据的功能，成为研究者的得力工具。该数据库的经典使用场景在于便捷地下载子语料库，如特定时期的诗歌、狄更斯小说、Bildungsromans成长小说，以及设定在伦敦的小说等，为研究者提供了丰富的文本资源。

衍生相关工作

Corpus-DB的建立促进了相关学术工作的开展，如文本分析工具的开发、数据库查询语言的优化、以及数字图书馆的构建等。该数据库已成为数字人文领域的一个重要基础资源，推动了相关研究的深入和相关技术的发展。

数据集最近研究