DEplain

github2024-02-01 更新2024-05-31 收录

德语自然语言处理

文档简化

数据链接：

https://github.com/rstodden/DEPlain 数据链接链接失效反馈

官方服务：

资源简介：

DEplain是一个新的德语平行语料库，包含专业编写和手动对齐的简化德语文本，用于推进德语句子简化及文档简化。

DEplain is a novel German parallel corpus comprising professionally written and manually aligned simplified German texts, tailored to advance research on German sentence simplification and document simplification.

创建时间：

2023-05-22

原始信息汇总

DEplain 数据集概述

数据集简介

DEplain 是一个德语平行语料库，包含专业编写并手动对齐的简化文本，用于德语的句子简化和文档简化。

数据集贡献

数据集包含以下贡献：

用于下载和收集标准德语和简单德语平行文档的网络收割器。
两个文档简化数据集。
句子级对齐（手动使用 TS-ANNO 和自动使用对齐算法）。
基于手动句子级对齐的每个文档的简化计划。
四个句子简化数据集。
手动对齐句子对的人工标注。
用于文档简化和句子简化的自动文本简化模型。

语料库统计

以下是各子语料库的元数据：

编号	名称	许可证	文档对数量 (训练/开发/测试)	原始句子数量	简化句子数量	对齐方式	句子对数量 (训练/开发/测试)	文档语料库名称	句子语料库名称
1	DEplain-apa	需请求	483 (387/48/48)	25,607	26,471	手动	13,122 (10,660/1,231/1,231)	DEplain-APA-doc	DEplain-APA-sent
2	DEplain-web	开放	147 (-/-/147)	6,138	6,402	手动	1,846 (-/-/1846)	DEplain-web-doc-manual-open	DEplain-web-sent-manual-open
3	DEplain-web	开放	249 (199/50/-)	7,087	7,760	自动	652 (514/138/-)	DEplain-web-doc-auto-open	DEplain-web-sent-auto-open
4	DEplain-web	封闭	360 (288/72/-)	12,847	18,068	自动	942 (767/175/-)	DEplain-web-doc-auto-closed	DEplain-web-sent-auto-closed
总计	混合	混合	1,239 (874/170/195)	51,681	58,701	混合	16,562 (11,941/1,544/3,077)

数据可用性

文档简化

请查看 ./B__Document-level_Corpus 获取文档简化语料库（DEplain-APA-doc 和 DEplain-web-doc）的访问信息。对于 DEplain-APA，请通过 DEplain-APA zenodo 仓库请求访问。具有开放许可证的 DEplain-web 文档可在此处获取；具有封闭许可证的文档可通过网络爬虫下载。

句子简化

请查看 ./E__Sentence-level_Corpus 获取句子简化语料库（DEplain-APA-sent 和 DEplain-web-sent）的访问信息。对于 DEplain-APA，请通过 DEplain-APA zenodo 仓库请求访问。具有开放许可证的 DEplain-web 手动对齐句子对和自动对齐句子对可直接从仓库下载。如果下载了具有封闭许可证的 DEplain-web 文档，可以使用提供的对齐算法自动对齐这些文档。

结果复现

自动句子对齐

请查看 ./C__Alignment_Algorithms 以复现实验。

自动文本简化

请查看 ./G__Automatic_Text_Simplification_Experiments 以复现实验。

许可证

不同部分的工作使用不同的许可证。请查看相应子目录获取更多许可证信息。

引用

如果您使用此工作的一部分，请引用我们的论文：

@inproceedings{stodden-etal-2023-deplain, title = "{DE}plain: A {G}erman Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification", author = "Stodden, Regina and Momen, Omar and Kallmeyer, Laura", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.908", doi = "10.18653/v1/2023.acl-long.908", pages = "16441--16463", }

搜集汇总

数据集介绍

构建方式

DEplain数据集的构建过程体现了严谨的学术态度与精细的技术操作。该数据集通过专业的网络爬虫工具收集了标准德语与简明德语之间的平行文档，并采用手动与自动相结合的方式对句子进行对齐。具体而言，手动对齐借助了TS-ANNO工具，而自动对齐则依赖于多种对齐算法。此外，每篇文档均基于手动对齐的句子生成了简化计划，确保了数据的高质量与一致性。整个构建过程不仅涵盖了文档级别的简化，还包含了句子级别的简化，形成了一个多层次、多维度的平行语料库。

特点

DEplain数据集以其丰富的语料资源与多样化的对齐方式脱颖而出。该数据集包含四个子语料库，分别涵盖了不同来源与对齐方式的文档与句子对。其中，DEplain-APA子集基于专业文档，而DEplain-web子集则来源于网络资源。数据集中的句子对既有手动对齐的精确性，也有自动对齐的高效性，满足了不同研究需求。此外，数据集还提供了详细的简化计划与人工标注，为文本简化研究提供了宝贵的参考。DEplain的语料规模庞大，总计包含超过5万条原始句子与近6万条简化句子，为德语文本简化领域的研究奠定了坚实的基础。

使用方法

DEplain数据集的使用方法灵活多样，适用于多种研究场景。对于文档简化任务，用户可以通过访问相应的子目录获取DEplain-APA与DEplain-web的文档语料库，其中DEplain-APA需通过Zenodo仓库申请访问权限，而DEplain-web的开放许可部分可直接下载。对于句子简化任务，数据集提供了手动对齐与自动对齐的句子对，用户可根据需求选择相应的语料库。此外，数据集还提供了对齐算法与自动文本简化模型的实验代码，便于用户复现研究结果。通过合理利用这些资源，研究者可以深入探索德语文本简化的前沿问题。

背景与挑战

背景概述

DEplain数据集由Regina Stodden、Omar Momen和Laura Kallmeyer于2023年共同创建，旨在推动德语句子和文档简化领域的研究。该数据集包含德语的平行语料，涵盖了标准德语与简化德语（Einfache Sprache）之间的专业翻译与手动对齐。DEplain的发布标志着德语自然语言处理领域在文本简化任务上的重要进展，尤其是在自动文本简化模型的训练与评估方面。该数据集的研究成果发表于第61届计算语言学协会年会（ACL 2023），为德语文本简化提供了高质量的资源支持，并推动了相关领域的技术创新与应用发展。

当前挑战

DEplain数据集在构建与应用过程中面临多重挑战。首先，文本简化任务本身具有复杂性，如何在保留原文语义的同时实现语言简化，尤其是在德语这种语法结构复杂的语言中，是一个核心难题。其次，数据集的构建依赖于大量专业翻译与手动对齐工作，这对人力与时间成本提出了较高要求。此外，自动对齐算法的开发与优化也面临技术挑战，尤其是在处理长文档和多义性句子时，如何确保对齐的准确性与一致性仍需进一步研究。最后，数据集的开放性与版权问题也限制了部分语料的广泛使用，这对数据共享与后续研究带来了一定的限制。

常用场景

经典使用场景

DEplain数据集在德语文本简化领域具有重要应用，特别是在句子和文档级别的简化任务中。该数据集通过提供标准德语与简化德语之间的平行语料，为研究人员和开发者提供了一个可靠的基准。其经典使用场景包括训练和评估自动文本简化模型，帮助提升模型在复杂文本转换为简单文本时的表现。

解决学术问题

DEplain数据集解决了德语文本简化研究中的关键问题，尤其是在缺乏高质量平行语料的背景下。通过提供手动和自动对齐的句子对，该数据集为研究德语文本简化算法提供了丰富的数据支持。这不仅推动了德语自然语言处理技术的发展，还为跨语言文本简化研究提供了宝贵的参考。

衍生相关工作

基于DEplain数据集，许多经典研究工作得以展开，包括自动文本简化模型的开发与优化、句子对齐算法的改进以及简化计划的制定。这些研究不仅提升了德语文本简化的技术水平，还为其他语言的文本简化研究提供了方法论上的借鉴。例如，一些研究利用该数据集开发了基于深度学习的简化模型，显著提高了简化文本的质量和可读性。

以上内容由遇见数据集搜集并总结生成