Corpus REDEWIEDERGABE
收藏github2023-09-14 更新2024-05-31 收录
下载链接:
https://github.com/redewiedergabe/corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个历史德语语料库(1840-1919年),包含虚构和非虚构文本,被标注用于言语、思想和写作表达(STWR)分析。
A historical German corpus (1840-1919), encompassing both fictional and non-fictional texts, annotated for the analysis of speech, thought, and writing representation (STWR).
创建时间:
2019-02-07
原始信息汇总
数据集概述
数据集名称
Corpus "Rᴇᴅᴇᴡɪᴇᴅᴇʀɢᴀʙᴇ"
数据集描述
一个包含1840至1919年间德语虚构和非虚构文本的历史语料库,专门注释了言语、思想和写作表达(STWR)。
数据集内容
核心语料库
附加材料
| 部分 | 文件数 | 词数 | STWR实例数 | 备注 |
|---|---|---|---|---|
| 单注释样本 | 258 | 150,162 | 4,395 | 仅由单个注释者完成 |
| 单注释完整文本(虚构) | 18 | 235,493 | 6,232 | 仅由单个注释者完成 |
| 单注释完整文本(非虚构) | 15 | 84,769 | 1,472 | 仅由单个注释者完成 |
| 间接完整文本 | 16 | 51,864 | 272 | 仅包含间接STWR实例 |
| 自由间接完整文本(虚构) | 142 | 2,647,924 | 2,136 | 仅包含自由间接STWR实例 |
| 核心语料库的主要注释 | 1,704 | 989,384 | 27,297 | 包含所有核心语料库的个体注释 |
数据集格式
- 列文本格式
- XML格式
- XMI格式(不适用于Beta版)
数据集注释
- 区分四种主要类型的STWR:直接、间接、自由间接和报告STWR。
- 注释包括嵌入级别、非事实STWR、边缘案例、语用和隐喻使用、框架、引入表达和说话者。
- 每个样本由两个不同的人独立注释,最终注释由第三个人基于这些注释创建。
数据集许可证
- 本数据集及其附加材料根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License提供。
搜集汇总
数据集介绍

构建方式
Corpus REDEWIEDERGABE 数据集的构建基于1840年至1919年间出版的德语虚构与非虚构文本,涵盖了广泛的文学和历史文献。数据集的文本来源于三个主要渠道:TextGrid项目的数字化图书馆、不来梅大学图书馆的《Die Grenzboten》杂志以及曼海姆历史报纸和杂志语料库。为确保样本的代表性,数据集采用了随机抽样方法,并对每个作者的文本进行了均衡处理,以避免某些作者或出版物因材料较少而被忽略。每个样本至少包含500个词符,并附有详细的元数据,如出版时间、文本类型和虚构性状态。
特点
Corpus REDEWIEDERGABE 数据集的核心特点在于其对言语、思想和书写表达(STWR)的详细标注。数据集区分了四种主要类型的STWR:直接、间接、自由间接和报告性STWR,并进一步标注了嵌入层次、非事实性STWR、边界案例、语用和隐喻使用等属性。每个样本由两名独立的标注者进行标注,并由第三名标注者进行最终确认,确保了标注的高质量和一致性。此外,数据集还提供了丰富的元数据和详细的标注指南,为研究者提供了全面的分析工具。
使用方法
Corpus REDEWIEDERGABE 数据集以三种格式提供:基于列的文本格式、XML格式和XMI格式,适用于不同的研究需求和分析工具。研究者可以通过GitHub的Issues跟踪器提交问题或疑问,获取技术支持。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议,并需在引用时注明项目来源。此外,项目还提供了基于该数据集训练的德语STWR自动标注工具,进一步扩展了数据集的应用范围。
背景与挑战
背景概述
Corpus REDEWIEDERGABE 是一个历史德语语料库,涵盖了1840年至1919年间的虚构与非虚构文本,专门标注了言语、思想和书写表达(STWR)。该语料库由德国研究基金会(DFG)资助的项目“Redewiedergabe - eine literatur- und sprachwissenschaftliche Korpusanalyse”创建,由莱布尼茨德语研究所(IDS Mannheim)和维尔茨堡大学合作完成。该项目旨在通过语料库分析,深入探讨德语文学和语言学中的言语表达现象。语料库的构建不仅为语言学研究提供了丰富的资源,还为文学研究中的叙事分析提供了新的视角。其影响力体现在对历史文本的细致标注,为后续的自动标注工具开发奠定了基础。
当前挑战
Corpus REDEWIEDERGABE 的构建面临多重挑战。首先,语料库的核心任务是解决历史文本中言语、思想和书写表达的复杂标注问题,这要求标注者具备深厚的语言学知识和历史文本理解能力。其次,语料库的构建过程中,文本来源的多样性和历史文本的数字化处理带来了技术上的挑战,尤其是在OCR校正和文本格式转换方面。此外,标注的一致性和质量控制也是关键问题,尤其是在多人协作的标注过程中,如何确保不同标注者之间的标准统一。最后,语料库的扩展性和兼容性也是一个挑战,尤其是在与其他工具和平台的集成中,如何保持数据的完整性和可用性。
常用场景
经典使用场景
Corpus REDEWIEDERGABE 数据集在语言学和文学研究领域中具有重要应用,尤其是在分析历史德语文本中的言语、思想和书写表达(STWR)方面。该数据集涵盖了1840年至1919年间的虚构和非虚构文本,通过对这些文本的详细标注,研究者能够深入探讨不同历史时期的语言使用模式及其演变。这一数据集为语言学家和文学研究者提供了一个丰富的历史语料库,支持对德语语言结构和文学表达形式的系统性研究。
衍生相关工作
基于Corpus REDEWIEDERGABE 数据集,研究者已经开发了多种自动化标注工具,如STWR标注器,这些工具在KONVENS 2020会议上得到了展示和应用。此外,该数据集还催生了一系列关于历史德语文本中STWR表达的研究论文,进一步推动了语言学、文学和计算机科学领域的交叉研究。这些衍生工作不仅扩展了数据集的应用范围,还为相关领域的学术研究提供了新的视角和方法。
数据集最近研究
最新研究方向
近年来,Corpus REDEWIEDERGABE数据集在历史语言学与文学研究领域引起了广泛关注。该数据集涵盖了1840年至1919年间的德语虚构与非虚构文本,特别标注了言语、思想和书写表达(STWR)的实例。随着自然语言处理技术的进步,研究者们开始利用该数据集探索历史文本中的语言演变模式、叙事结构以及作者风格的量化分析。特别是在自动标注工具的辅助下,STWR的识别与分类效率显著提升,为文学分析和语言学研究提供了新的视角。此外,该数据集还被广泛应用于跨文化比较研究,揭示了不同历史时期德语文本中的叙事策略与语言特征。这些研究不仅深化了对德语文学传统的理解,也为现代语言技术的开发提供了宝贵的历史语料支持。
以上内容由遇见数据集搜集并总结生成



