five

Document-aligned corpus of German Narrative Texts

收藏
github2023-09-16 更新2024-05-31 收录
下载链接:
https://github.com/tschomacker/aligned-narrative-documents
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含标准语言文本和简单语言文本配对的德语文本对齐语料库,数据来源于四个简单语言文本源和三个标准语言文本源。每个样本由标准语言版本(原始)和简单语言版本组成,文本可以从PDF、TXT和HTML文件中获取。

A German text alignment corpus containing pairs of standard language texts and simple language texts, sourced from four simple language text sources and three standard language text sources. Each sample consists of a standard language version (original) and a simple language version, with texts obtainable from PDF, TXT, and HTML files.
创建时间:
2023-01-19
原始信息汇总

数据集概述

数据集名称

  • Aligned Narrative Documents

数据集内容

  • 该数据集包含德语叙事文本的文档对齐语料库,由四种不同来源的简单语言文本和三种不同来源的标准语言文本组成。每个样本包括一个标准语言版本(原始)和一个简单语言版本。文本来源包括PDF、TXT和HTML文件。

数据集结构

  • 数据集分为一个全文本源(MILS)和三个片段文本源(EB, KV, PV)。通过两个脚本和四个配置JSON文件创建这些子数据集,并在最后一步合并。

子数据集详情

  • MILS Corpus
    • 使用JSON格式存储,文件路径为../../data/mils_data.json,文本来自https://www.ndr.de/fernsehen/barrierefreie_angebote/leichte_sprache/Maerchen-in-Leichter-Sprache,maerchenleichtesprache100.html。
  • EB, PV, KV Corpus
    • 使用JSON格式存储,分别位于../../data/eb_data.json../../data/pv_data.json../../data/kv_data.json,文本分别来自https://einfachebuecher.de、https://www.passanten-verlag.de和https://www.kindermannverlag.de。

数据集输出

  • 合并所有子数据集后,生成完整的语料库,并分为训练、验证和测试数据。输出文件包括:
    • /val-source.txt (验证集,原始文本)
    • /val-target.txt (验证集,简单文本)
    • /train-source.txt (训练集,原始文本)
    • /train-target.txt (训练集,简单文本)
    • /test-source.txt (测试集,原始文本)
    • /test-target.txt (测试集,简单文本)

数据集配置

  • 使用JSON格式配置数据输入,包括参数如simple_pathsimple_start_pagesimple_first_page_number_for_removal等,用于指定简单和原始文档的路径、起始页码、文本起止标记等。

许可证

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于四种简易语言文本源和三种标准语言文本源,通过脚本将标准语言版本与简易语言版本对齐。每对样本由原始文本及其简化版本组成,文本来源包括PDF、TXT和HTML文件。原始文本经过截断处理,以匹配简化版本的篇幅。数据集通过多个子数据集(MILS、EB、PV、KV)的合并最终形成完整语料库,并划分为训练集、验证集和测试集。
使用方法
使用该数据集时,首先需安装所需的Python依赖库,随后通过配置JSON文件指定文本路径、起始页、文本标记等参数。通过运行预处理脚本,生成对齐的文本对,并最终合并为完整的语料库。数据集的使用支持多种格式的文本输入,且提供了详细的单元测试脚本,便于用户验证和调整解析器。最终生成的语料库可直接用于自然语言处理任务,如文本简化模型的训练与评估。
背景与挑战
背景概述
Document-aligned corpus of German Narrative Texts数据集由Thorben Schomacker、Tillmann Dönicke和Marina Tropmann-Frick等研究人员于2023年创建,旨在探索德语叙事文本的自动简化问题。该数据集整合了来自四个简化文本源和三个标准文本源的德语叙事文本,每对样本包含标准语言版本及其简化版本。通过从PDF、TXT和HTML文件中提取文本,并对原始文本进行截断以匹配简化版本的长度,该数据集为自然语言处理领域的研究提供了重要的资源。其研究成果在2023年的KONVENS会议上发表,推动了德语文本简化技术的发展。
当前挑战
该数据集在构建过程中面临多重挑战。首先,文本对齐的复杂性要求精确的标记和截断操作,以确保标准文本与简化文本的内容一致性。其次,数据来源的多样性带来了格式和结构的差异,增加了数据预处理的难度。此外,文本简化本身涉及语言表达的复杂转换,如何在保持原意的基础上实现简化,是文本简化领域的核心挑战。最后,数据集的使用和扩展需要克服版权和许可问题,确保数据的合法性和可访问性。这些挑战共同构成了该数据集在文本简化研究中的重要性和复杂性。
常用场景
经典使用场景
在自然语言处理领域,Document-aligned corpus of German Narrative Texts数据集为研究者提供了一个独特的资源,用于分析和比较标准德语与简化德语之间的文本转换。该数据集通过提供成对的原始文本和简化文本,使得研究者能够深入探讨文本简化的机制和效果,特别是在叙事文本中的应用。这种对齐的文本对为开发自动文本简化算法提供了宝贵的训练和测试材料。
解决学术问题
该数据集解决了自然语言处理中一个关键问题:如何有效地将复杂文本转换为易于理解的简化版本。通过提供精确对齐的文本对,研究者可以开发出更精确的模型来识别和简化文本中的复杂结构,从而提高文本的可读性,特别是对于语言学习者或有阅读障碍的人群。此外,这种数据集还支持跨语言文本简化的研究,为多语言文本处理技术的发展提供了基础。
实际应用
在实际应用中,Document-aligned corpus of German Narrative Texts数据集被广泛用于教育和信息无障碍领域。例如,教育机构可以利用这些数据来开发教学材料,帮助非母语者或阅读能力有限的学生更好地理解复杂的德语文本。同时,该数据集也支持开发辅助技术,如屏幕阅读器,使视障人士能够更容易地访问和理解电子文档。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的快速发展,文本简化任务逐渐成为研究热点。Document-aligned corpus of German Narrative Texts数据集的推出,为德语叙事文本的自动简化研究提供了重要资源。该数据集通过将标准德语文本与其简化版本对齐,为机器学习和深度学习模型提供了丰富的训练数据。当前的研究方向主要集中在利用该数据集开发更高效的文本简化模型,特别是在跨语言文本简化、多模态文本简化以及基于预训练语言模型的简化方法上。此外,该数据集还被广泛应用于教育技术领域,用于开发辅助阅读工具,帮助语言学习者或有阅读障碍的人群更好地理解复杂文本。这些研究不仅推动了自然语言处理技术的发展,也为社会包容性教育提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作