DiBiLit-Corpus

github2022-12-14 更新2024-05-31 收录

下载链接：

https://github.com/deutschestextarchiv/DiBiLit-Korpus

下载链接

链接失效反馈

官方服务：

资源简介：

DiBiLit是一个由BMBF资助的CLARIAH-DE项目中创建的语料库，通过统一来自数字图书馆的各种文本衍生品，并大量丰富其（书目）元数据。该语料库包含超过2000个来自知名作者的文本，采用DTABf编码，并在DTA基础设施下以Creative Commons许可证提供。这些文本最初由DirectMedia Publishing发布，可通过DTA集成的DDC搜索引擎以及其他DTA语言分析工具进行研究。

DiBiLit is a corpus created within the CLARIAH-DE project funded by the BMBF, which unifies various text derivatives from digital libraries and significantly enriches their (bibliographic) metadata. This corpus contains over 2000 texts from renowned authors, encoded in DTABf, and is made available under a Creative Commons license via the DTA infrastructure. These texts were originally published by DirectMedia Publishing and can be researched using the DTA-integrated DDC search engine as well as other DTA linguistic analysis tools.

创建时间：

2021-09-24

原始信息汇总

DiBiLit-Corpus 数据集概述

数据集描述

DiBiLit-Corpus 是由 BMBF-funded 项目 CLARIAH-DE 创建的一个语料库，通过对“数字图书馆”中各种文本衍生物进行统一，并大量丰富其（书目）元数据。该数据集包含超过2,000篇来自知名作者的文本，这些文本采用DTABf编码，并在DTA基础设施下以Creative Commons许可证形式提供。用户可以通过集成在DTA中的DDC搜索引擎以及其他DTA语言分析工具对该文本集合进行研究。

数据集内容

数据集的存储库包含以下目录：

data：包含所有根据体裁分配的子目录中的文本。
- drama
- erzaehlungen
- essays
- fabel
- libretti
- lyrik
- prosa
- roman
- sagen_maerchen
- wissenschaft
metadata：包含与元数据相关的两个子目录。
- bibl：包含作为DTABf-Headers基础的书目元数据。
- headers：包含所有文本的DTABf-headers。
publications：包含工作流程的文档。

数据集访问

数据集可通过以下链接访问：

Deutsches Textarchiv (DTA)/DiBiLit-Corpus: https://deutschestextarchiv.de/dibilit/

搜集汇总

数据集介绍

构建方式

DiBiLit-Corpus数据集的构建源于BMBF资助的CLARIAH-DE项目，通过整合来自“数字图书馆”的多种文本衍生版本，并对其进行广泛的（书目）元数据丰富化处理。该数据集包含超过2000篇来自知名作家的文本，采用DTABf编码格式，并在DTA基础设施下以Creative Commons许可发布。这些文本最初由DirectMedia Publishing出版，现可通过DTA集成的DDC搜索引擎及其他语言学分析工具进行研究。

使用方法

DiBiLit-Corpus数据集的使用方法灵活多样。用户可通过DTA基础设施访问数据集，利用集成的DDC搜索引擎进行文本检索，或使用DTA提供的语言学分析工具进行文本挖掘。数据集按体裁分类存储，用户可根据研究需求选择特定类型的文本进行分析。此外，数据集附带的元数据和文档为用户提供了丰富的背景信息，有助于深入理解文本内容和结构。

背景与挑战

背景概述

DiBiLit-Corpus数据集是在BMBF资助的CLARIAH-DE项目中创建的，旨在通过整合来自‘数字图书馆’的多种文本衍生品，并对其进行广泛的（书目）元数据丰富化处理。该数据集包含超过2000篇来自知名作者的文本，采用DTABf编码，并在DTA基础设施中以Creative Commons许可形式公开。这些文本最初由DirectMedia Publishing出版，现可通过DTA集成的DDC搜索引擎及其他语言学分析工具进行研究。DiBiLit-Corpus的创建不仅为文学研究提供了丰富的文本资源，还推动了数字人文领域的发展。

当前挑战

DiBiLit-Corpus在构建过程中面临多重挑战。首先，文本的多样性和复杂性要求高度的标准化处理，以确保不同来源的文本能够在统一的框架下进行分析。其次，元数据的丰富化过程需要精确的标注和验证，以确保数据的准确性和一致性。此外，如何有效地整合和利用DTA基础设施中的工具进行文本分析，也是一个技术上的挑战。这些挑战不仅考验了数据处理的技术能力，也对研究人员的跨学科协作提出了更高的要求。

常用场景

经典使用场景

DiBiLit-Corpus数据集广泛应用于文学研究和语言学分析领域。该数据集包含了超过2000篇来自著名作者的文本，涵盖了戏剧、散文、小说、诗歌等多种文学体裁。研究者可以利用这些文本进行文学风格分析、语言演变研究以及跨文化比较。通过DTABf编码和丰富的元数据，该数据集为文学研究者提供了一个高质量的资源库，支持深入的文本挖掘和语义分析。

解决学术问题

DiBiLit-Corpus解决了文学研究中文本数据分散、格式不统一的问题。通过将不同来源的文本进行标准化处理，并添加详细的元数据，该数据集为研究者提供了一个统一的平台，便于进行跨文本、跨体裁的比较研究。此外，DTABf编码的引入使得文本的结构化分析成为可能，极大地推动了文学计算和数字人文领域的发展。

实际应用

在实际应用中，DiBiLit-Corpus被广泛用于教育、出版和文化保护领域。教育机构可以利用该数据集进行文学课程的开发和教学资源的建设；出版商可以通过分析文本的元数据和内容，优化出版策略；文化保护机构则可以利用该数据集进行文化遗产的数字化保存和传播。

数据集最近研究