DiBiPhil Corpus

github2023-11-22 更新2024-05-31 收录

下载链接：

https://github.com/deutschestextarchiv/DiBiPhil

下载链接

链接失效反馈

官方服务：

资源简介：

DiBiPhil Corpus是由柏林勃兰登堡科学院语言中心的历史语料库工作组策划的哲学文本集。这些文本最初由Directmedia Publishing在Zeno.org的数字图书馆中提供。数据集中的文本被统一转换为TEI格式，并丰富了大量的（书目）元数据，现在通过DTA基础设施提供，可以使用DDC搜索引擎和其他DTA语言分析工具进行研究。

The DiBiPhil Corpus is a collection of philosophical texts curated by the Historical Corpus Working Group at the Language Center of the Berlin-Brandenburg Academy of Sciences. These texts were originally provided by Directmedia Publishing in the digital library Zeno.org. The texts in the dataset have been uniformly converted into TEI (Text Encoding Initiative) format and enriched with extensive (bibliographic) metadata. They are now available through the DTA (Deutsches Textarchiv) infrastructure, enabling research using the DDC search engine and other DTA language analysis tools.

创建时间：

2023-06-02

原始信息汇总

DiBiPhil Corpus 概述

数据集来源与制作

制作机构：柏林勃兰登堡科学院人文科学中心语言部历史语料库工作组
资金支持：德国联邦教育和研究部（BMBF）资助的CLARIAH-DE和ZDL项目
原始资料：Directmedia Publishing提供的“数字图书馆”在Zeno.org上的文本
格式转换：文本被统一转换为TEI格式DTABf
元数据丰富：文本附带了丰富的（书目）元数据
访问与研究：通过DTA基础设施访问，支持DDC搜索引擎及DTA的其它语言分析工具

数据集内容

时间范围：15世纪至20世纪，重点为18世纪至20世纪
文本类型：学术与文学文本，包含哲学内容或背景
作者：知名作者的作品

许可协议

使用许可：Creative Commons Attribution-ShareAlike 4.0 License

编辑与联系方式

编辑团队：
- Deutsches Textarchiv DTA (E-Mail)
- Matthias Boenig
- Susanne Haaf
- Marius Hug

搜集汇总

数据集介绍

构建方式

DiBiPhil Corpus由柏林勃兰登堡科学院语言中心的历史语料库工作组精心构建，得益于BMBF对CLARIAH-DE和ZDL项目的资助。该语料库的原始文本由Directmedia Publishing通过Zeno.org的“数字图书馆”提供。文本经过同质化处理，并转换为TEI格式，同时丰富了大量的书目元数据，最终集成到DTA基础设施中，供研究者使用。

特点

DiBiPhil Corpus涵盖了15世纪至20世纪的文本，尤其聚焦于18至20世纪的文学作品。语料库包含由知名作家撰写的具有哲学内容或背景的学术及文学作品，为研究哲学与文学的交融提供了丰富的素材。

使用方法

DiBiPhil Corpus可通过DTA基础设施中的DDC搜索引擎进行检索，并利用DTA提供的其他语言学分析工具进行深入研究。语料库的文本以TEI格式存储，便于研究者进行结构化的数据分析和文本挖掘。

背景与挑战

背景概述

DiBiPhil Corpus是由柏林勃兰登堡科学院语言中心的历史语料库工作组精心构建的语料库，得益于BMBF对CLARIAH-DE和ZDL项目的资助。该语料库的文本最初由Directmedia Publishing通过Zeno.org的“数字图书馆”提供，经过格式统一化并转换为TEI格式，同时丰富了大量的书目元数据。这些文本现已在DTA基础设施中开放，供研究者使用DTA集成的DDC搜索引擎及其他语言学分析工具进行深入研究。DiBiPhil Corpus涵盖了15世纪至20世纪的文献，尤其聚焦于18世纪至20世纪的哲学背景或内容的学术与文学作品，作者多为知名学者与文学家。

当前挑战

DiBiPhil Corpus的构建面临多重挑战。首先，文本的时间跨度长达五个世纪，如何确保不同历史时期的文本在格式和元数据上的一致性，是一个复杂的技术问题。其次，文本的哲学背景要求对内容进行深度理解与标注，这对语言学与哲学领域的交叉研究提出了较高要求。此外，将大量历史文本转换为TEI格式并集成到DTA基础设施中，需要克服数据标准化与系统兼容性方面的技术难题。这些挑战不仅考验了数据处理的技术能力，也对跨学科协作提出了更高的要求。

常用场景

经典使用场景

DiBiPhil Corpus 数据集在历史语言学和哲学研究领域具有重要应用价值。其涵盖15世纪至20世纪的文献，尤其聚焦于18至20世纪的哲学文本，为研究者提供了丰富的语言和思想史素材。通过TEI格式的标准化处理和丰富的元数据标注，该数据集支持文本的深度分析和跨时代比较，成为研究哲学思想演变和语言变迁的经典工具。

解决学术问题

DiBiPhil Corpus 解决了历史文献研究中数据分散和格式不统一的问题。通过将文本转换为TEI格式并添加详尽的元数据，研究者能够高效地进行文本检索和语言学分析。此外，该数据集为哲学思想的跨时代研究提供了高质量的数据支持，帮助学者探索哲学文本的语言特征及其历史背景，推动了思想史和语言学的交叉研究。

衍生相关工作

基于DiBiPhil Corpus，许多经典研究工作得以展开。例如，研究者利用该数据集分析了18至20世纪哲学文本的语言演变，揭示了特定哲学概念的表达方式及其历史变迁。此外，该数据集还支持了多篇关于哲学思想与语言结构关系的学术论文，推动了哲学语言学这一新兴领域的发展。这些衍生工作进一步拓展了DiBiPhil Corpus 的学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集