德国诗歌语料库 v1 (Deutsches Lyrik Korpus version 1, DLK)

Name: 德国诗歌语料库 v1 (Deutsches Lyrik Korpus version 1, DLK)
Creator: 马克斯·普朗克经验美学研究所，法兰克福 IMS，斯图加特大学
Published: 2019-09-26 22:18:09
License: 暂无描述

arXiv2019-09-26 更新2024-06-21 收录

下载链接：

http://github.com/thomasnikolaushaider/DLK

下载链接

链接失效反馈

官方服务：

资源简介：

德国诗歌语料库 v1 (DLK) 是由马克斯·普朗克经验美学研究所和斯图加特大学合作创建的大型德语诗歌数据集，包含约75,000首诗歌，总计超过1100万个Token。该数据集从16世纪至20世纪初，涵盖了德国文学的多个时期。数据集的创建涉及从Textgrid、德国文本档案馆和Antikoerperchen等资源中收集和整理诗歌。DLK主要用于分析诗歌中的语义变化和新兴修辞，特别是在德国浪漫主义时期的变化点。该数据集的应用领域包括文学分析、语言学研究和自然语言处理，旨在揭示诗歌语言的演变和语义变化规律。

German Poetry Corpus v1 (DLK) is a large-scale German poetry corpus created in collaboration between the Max Planck Institute for Empirical Aesthetics and the University of Stuttgart. It contains approximately 75,000 poems, with a total of over 11 million Tokens. Spanning from the 16th century to the early 20th century, this corpus covers multiple periods of German literature. The development of DLK involved collecting and curating poems from resources including Textgrid, the German Text Archive, and Antikoerperchen. DLK is primarily used to analyze semantic changes and emerging rhetoric in poetry, especially turning points during the German Romantic era. Its application fields include literary analysis, linguistic research, and natural language processing, aiming to reveal the evolutionary laws and semantic variation patterns of poetic language.

提供机构：

马克斯·普朗克经验美学研究所，法兰克福 IMS，斯图加特大学

创建时间：

2019-09-26

搜集汇总

数据集介绍

构建方式

德国诗歌语料库v1（Deutsches Lyrik Korpus version 1, DLK）的构建基于三个主要资源：Textgrid（TGRID）、德国文本档案（DTA）和Antikoerperchen（ANTI-K）。这些资源中的诗歌文本以TEI P5 XML格式编排，涵盖了从16世纪到20世纪初的德国诗歌作品。数据集通过合并这些资源并去除重复的诗节，最终形成了包含约75,000首诗、超过1100万词令的庞大语料库。此外，为了确保语义分析的准确性，数据集进行了词形还原和词性标注处理。

特点

DLK数据集的显著特点在于其规模之大和时间跨度之广，涵盖了从巴洛克时期到现代的德国诗歌。此外，数据集的构建过程中采用了词形还原和词性标注，这为后续的语义变化分析提供了坚实的基础。数据集的发布格式为json，便于研究者进行进一步的数据处理和分析。

使用方法

DLK数据集可用于多种自然语言处理任务，特别是语义变化分析和文学时期重建。研究者可以通过计算词向量的自相似性来追踪词汇意义随时间的变化，并识别出特定的文学时期。此外，数据集还可用于探索诗歌中的修辞手法（如‘爱是魔法’）的演变，通过主成分分析（PCA）等方法揭示词汇搭配的动态变化。

背景与挑战

背景概述

德国诗歌语料库v1（Deutsches Lyrik Korpus version 1, DLK）是由Thomas Nikolaus Haider和Steffen Eger等研究人员在MPI for Empirical Aesthetics和IMS, University of Stuttgart等机构合作创建的。该数据集包含了约75,000首诗歌，涵盖了从16世纪到20世纪初的德国诗歌，总词数超过1100万。DLK的核心研究问题在于分析诗歌中的语义变化和新比喻的涌现，特别是在德国浪漫主义时期。这一数据集不仅填补了大规模历时诗歌语料库的空白，还为研究诗歌语言的语义变化提供了宝贵的资源，对自然语言处理和文学研究领域产生了深远影响。

当前挑战

DLK数据集在构建和应用过程中面临多重挑战。首先，诗歌语言的语义变化分析需要克服诗歌语言的密集性和难以简化的特性，这使得语义变化的检测变得复杂。其次，数据集的构建过程中，研究人员需要处理不同来源的诗歌文本，确保时间戳的准确性，并去除重复和非德语内容。此外，由于诗歌中某些词汇的低频出现，模型在特定时间段内的嵌入稳定性受到影响。最后，尽管DLK提供了丰富的诗歌数据，但如何在稀疏数据分布的情况下，确保语义变化分析的准确性和鲁棒性，仍是一个亟待解决的问题。

常用场景

经典使用场景

德国诗歌语料库v1（DLK）最经典的使用场景在于其对德语诗歌中语义变化的深入分析。通过大规模的诗歌数据，研究者能够追踪从16世纪到20世纪初的语义演变，特别是浪漫主义时期语义变化点的检测。此外，该数据集还用于重建文学时期，并通过自相似性实验验证语义变化的线性规律。

实际应用

在实际应用中，DLK数据集被广泛用于文学研究和语言学教学。它帮助学者们更好地理解和分析德语诗歌的演变，同时也为学生提供了丰富的文本资源进行语言学习和文学分析。此外，该数据集还被用于开发和测试自然语言处理（NLP）算法，特别是在语义变化检测和文学文本分析方面，推动了相关技术的发展。

衍生相关工作

DLK数据集的发布和使用催生了一系列相关研究工作。例如，基于该数据集的语义变化分析方法被应用于其他语言和文学体裁的研究中，扩展了其应用范围。同时，研究者们也开发了新的模型和算法，如时间嵌入模型，以更好地捕捉和分析语义变化。这些衍生工作不仅深化了对德语诗歌的理解，也为跨学科研究提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集