Document-aligned corpus of German Narrative Texts

github2023-09-16 更新2024-05-31 收录

下载链接：

https://github.com/tschomacker/aligned-narrative-documents

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含标准语言文本和简单语言文本配对的德语文本对齐语料库，数据来源于四个简单语言文本源和三个标准语言文本源。每个样本由标准语言版本（原始）和简单语言版本组成，文本可以从PDF、TXT和HTML文件中获取。

A German text alignment corpus containing pairs of standard language texts and simple language texts, sourced from four simple language text sources and three standard language text sources. Each sample consists of a standard language version (original) and a simple language version, with texts obtainable from PDF, TXT, and HTML files.

创建时间：

2023-01-19

原始信息汇总

数据集概述

数据集名称

Aligned Narrative Documents

数据集内容

该数据集包含德语叙事文本的文档对齐语料库，由四种不同来源的简单语言文本和三种不同来源的标准语言文本组成。每个样本包括一个标准语言版本（原始）和一个简单语言版本。文本来源包括PDF、TXT和HTML文件。

数据集结构

数据集分为一个全文本源（MILS）和三个片段文本源（EB, KV, PV）。通过两个脚本和四个配置JSON文件创建这些子数据集，并在最后一步合并。

子数据集详情

MILS Corpus
- 使用JSON格式存储，文件路径为../../data/mils_data.json，文本来自https://www.ndr.de/fernsehen/barrierefreie_angebote/leichte_sprache/Maerchen-in-Leichter-Sprache,maerchenleichtesprache100.html。
EB, PV, KV Corpus
- 使用JSON格式存储，分别位于../../data/eb_data.json、../../data/pv_data.json和../../data/kv_data.json，文本分别来自https://einfachebuecher.de、https://www.passanten-verlag.de和https://www.kindermannverlag.de。

数据集输出

合并所有子数据集后，生成完整的语料库，并分为训练、验证和测试数据。输出文件包括：
- /val-source.txt (验证集，原始文本)
- /val-target.txt (验证集，简单文本)
- /train-source.txt (训练集，原始文本)
- /train-target.txt (训练集，简单文本)
- /test-source.txt (测试集，原始文本)
- /test-target.txt (测试集，简单文本)

数据集配置

使用JSON格式配置数据输入，包括参数如simple_path、simple_start_page、simple_first_page_number_for_removal等，用于指定简单和原始文档的路径、起始页码、文本起止标记等。

许可证

本数据集根据Creative Commons Attribution 4.0 International License授权。部分文本可能受其他许可证约束。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于四种简易语言文本源和三种标准语言文本源，通过脚本将标准语言版本与简易语言版本对齐。每对样本由原始文本及其简化版本组成，文本来源包括PDF、TXT和HTML文件。原始文本经过截断处理，以匹配简化版本的篇幅。数据集通过多个子数据集（MILS、EB、PV、KV）的合并最终形成完整语料库，并划分为训练集、验证集和测试集。

使用方法

使用该数据集时，首先需安装所需的Python依赖库，随后通过配置JSON文件指定文本路径、起始页、文本标记等参数。通过运行预处理脚本，生成对齐的文本对，并最终合并为完整的语料库。数据集的使用支持多种格式的文本输入，且提供了详细的单元测试脚本，便于用户验证和调整解析器。最终生成的语料库可直接用于自然语言处理任务，如文本简化模型的训练与评估。

背景与挑战

背景概述

Document-aligned corpus of German Narrative Texts数据集由Thorben Schomacker、Tillmann Dönicke和Marina Tropmann-Frick等研究人员于2023年创建，旨在探索德语叙事文本的自动简化问题。该数据集整合了来自四个简化文本源和三个标准文本源的德语叙事文本，每对样本包含标准语言版本及其简化版本。通过从PDF、TXT和HTML文件中提取文本，并对原始文本进行截断以匹配简化版本的长度，该数据集为自然语言处理领域的研究提供了重要的资源。其研究成果在2023年的KONVENS会议上发表，推动了德语文本简化技术的发展。

当前挑战

该数据集在构建过程中面临多重挑战。首先，文本对齐的复杂性要求精确的标记和截断操作，以确保标准文本与简化文本的内容一致性。其次，数据来源的多样性带来了格式和结构的差异，增加了数据预处理的难度。此外，文本简化本身涉及语言表达的复杂转换，如何在保持原意的基础上实现简化，是文本简化领域的核心挑战。最后，数据集的使用和扩展需要克服版权和许可问题，确保数据的合法性和可访问性。这些挑战共同构成了该数据集在文本简化研究中的重要性和复杂性。

常用场景

经典使用场景

在自然语言处理领域，Document-aligned corpus of German Narrative Texts数据集为研究者提供了一个独特的资源，用于分析和比较标准德语与简化德语之间的文本转换。该数据集通过提供成对的原始文本和简化文本，使得研究者能够深入探讨文本简化的机制和效果，特别是在叙事文本中的应用。这种对齐的文本对为开发自动文本简化算法提供了宝贵的训练和测试材料。

解决学术问题

该数据集解决了自然语言处理中一个关键问题：如何有效地将复杂文本转换为易于理解的简化版本。通过提供精确对齐的文本对，研究者可以开发出更精确的模型来识别和简化文本中的复杂结构，从而提高文本的可读性，特别是对于语言学习者或有阅读障碍的人群。此外，这种数据集还支持跨语言文本简化的研究，为多语言文本处理技术的发展提供了基础。

实际应用

在实际应用中，Document-aligned corpus of German Narrative Texts数据集被广泛用于教育和信息无障碍领域。例如，教育机构可以利用这些数据来开发教学材料，帮助非母语者或阅读能力有限的学生更好地理解复杂的德语文本。同时，该数据集也支持开发辅助技术，如屏幕阅读器，使视障人士能够更容易地访问和理解电子文档。

数据集最近研究