Corpus REDEWIEDERGABE

github2023-09-14 更新2024-05-31 收录

下载链接：

https://github.com/redewiedergabe/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个历史德语语料库（1840-1919年），包含虚构和非虚构文本，被标注用于言语、思想和写作表达（STWR）分析。

A historical German corpus (1840-1919), encompassing both fictional and non-fictional texts, annotated for the analysis of speech, thought, and writing representation (STWR).

创建时间：

2019-02-07

原始信息汇总

数据集概述

数据集名称

Corpus "Rᴇᴅᴇᴡɪᴇᴅᴇʀɢᴀʙᴇ"

数据集描述

一个包含1840至1919年间德语虚构和非虚构文本的历史语料库，专门注释了言语、思想和写作表达（STWR）。

数据集内容

核心语料库

部分	样本数	词数	STWR实例数	备注
主语料库	838	489,459	12,123	详细统计数据
主语料库（Beta版）	619	360,974	9,451	详细统计数据

附加材料

部分	文件数	词数	STWR实例数	备注
单注释样本	258	150,162	4,395	仅由单个注释者完成
单注释完整文本（虚构）	18	235,493	6,232	仅由单个注释者完成
单注释完整文本（非虚构）	15	84,769	1,472	仅由单个注释者完成
间接完整文本	16	51,864	272	仅包含间接STWR实例
自由间接完整文本（虚构）	142	2,647,924	2,136	仅包含自由间接STWR实例
核心语料库的主要注释	1,704	989,384	27,297	包含所有核心语料库的个体注释

数据集格式

列文本格式
XML格式
XMI格式（不适用于Beta版）

数据集注释

区分四种主要类型的STWR：直接、间接、自由间接和报告STWR。
注释包括嵌入级别、非事实STWR、边缘案例、语用和隐喻使用、框架、引入表达和说话者。
每个样本由两个不同的人独立注释，最终注释由第三个人基于这些注释创建。

数据集许可证

本数据集及其附加材料根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License提供。

搜集汇总

数据集介绍

构建方式

Corpus REDEWIEDERGABE 数据集的构建基于1840年至1919年间出版的德语虚构与非虚构文本，涵盖了广泛的文学和历史文献。数据集的文本来源于三个主要渠道：TextGrid项目的数字化图书馆、不来梅大学图书馆的《Die Grenzboten》杂志以及曼海姆历史报纸和杂志语料库。为确保样本的代表性，数据集采用了随机抽样方法，并对每个作者的文本进行了均衡处理，以避免某些作者或出版物因材料较少而被忽略。每个样本至少包含500个词符，并附有详细的元数据，如出版时间、文本类型和虚构性状态。

特点

Corpus REDEWIEDERGABE 数据集的核心特点在于其对言语、思想和书写表达（STWR）的详细标注。数据集区分了四种主要类型的STWR：直接、间接、自由间接和报告性STWR，并进一步标注了嵌入层次、非事实性STWR、边界案例、语用和隐喻使用等属性。每个样本由两名独立的标注者进行标注，并由第三名标注者进行最终确认，确保了标注的高质量和一致性。此外，数据集还提供了丰富的元数据和详细的标注指南，为研究者提供了全面的分析工具。

使用方法

Corpus REDEWIEDERGABE 数据集以三种格式提供：基于列的文本格式、XML格式和XMI格式，适用于不同的研究需求和分析工具。研究者可以通过GitHub的Issues跟踪器提交问题或疑问，获取技术支持。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议，并需在引用时注明项目来源。此外，项目还提供了基于该数据集训练的德语STWR自动标注工具，进一步扩展了数据集的应用范围。

背景与挑战

背景概述

Corpus REDEWIEDERGABE 是一个历史德语语料库，涵盖了1840年至1919年间的虚构与非虚构文本，专门标注了言语、思想和书写表达（STWR）。该语料库由德国研究基金会（DFG）资助的项目“Redewiedergabe - eine literatur- und sprachwissenschaftliche Korpusanalyse”创建，由莱布尼茨德语研究所（IDS Mannheim）和维尔茨堡大学合作完成。该项目旨在通过语料库分析，深入探讨德语文学和语言学中的言语表达现象。语料库的构建不仅为语言学研究提供了丰富的资源，还为文学研究中的叙事分析提供了新的视角。其影响力体现在对历史文本的细致标注，为后续的自动标注工具开发奠定了基础。

当前挑战

Corpus REDEWIEDERGABE 的构建面临多重挑战。首先，语料库的核心任务是解决历史文本中言语、思想和书写表达的复杂标注问题，这要求标注者具备深厚的语言学知识和历史文本理解能力。其次，语料库的构建过程中，文本来源的多样性和历史文本的数字化处理带来了技术上的挑战，尤其是在OCR校正和文本格式转换方面。此外，标注的一致性和质量控制也是关键问题，尤其是在多人协作的标注过程中，如何确保不同标注者之间的标准统一。最后，语料库的扩展性和兼容性也是一个挑战，尤其是在与其他工具和平台的集成中，如何保持数据的完整性和可用性。

常用场景

经典使用场景

Corpus REDEWIEDERGABE 数据集在语言学和文学研究领域中具有重要应用，尤其是在分析历史德语文本中的言语、思想和书写表达（STWR）方面。该数据集涵盖了1840年至1919年间的虚构和非虚构文本，通过对这些文本的详细标注，研究者能够深入探讨不同历史时期的语言使用模式及其演变。这一数据集为语言学家和文学研究者提供了一个丰富的历史语料库，支持对德语语言结构和文学表达形式的系统性研究。

衍生相关工作

基于Corpus REDEWIEDERGABE 数据集，研究者已经开发了多种自动化标注工具，如STWR标注器，这些工具在KONVENS 2020会议上得到了展示和应用。此外，该数据集还催生了一系列关于历史德语文本中STWR表达的研究论文，进一步推动了语言学、文学和计算机科学领域的交叉研究。这些衍生工作不仅扩展了数据集的应用范围，还为相关领域的学术研究提供了新的视角和方法。

数据集最近研究