DEplain
收藏DEplain 数据集概述
数据集简介
DEplain 是一个德语平行语料库,包含专业编写并手动对齐的简化文本,用于德语的句子简化和文档简化。
数据集贡献
数据集包含以下贡献:
- 用于下载和收集标准德语和简单德语平行文档的网络收割器。
- 两个文档简化数据集。
- 句子级对齐(手动使用 TS-ANNO 和自动使用对齐算法)。
- 基于手动句子级对齐的每个文档的简化计划。
- 四个句子简化数据集。
- 手动对齐句子对的人工标注。
- 用于文档简化和句子简化的自动文本简化模型。
语料库统计
以下是各子语料库的元数据:
| 编号 | 名称 | 许可证 | 文档对数量 (训练/开发/测试) | 原始句子数量 | 简化句子数量 | 对齐方式 | 句子对数量 (训练/开发/测试) | 文档语料库名称 | 句子语料库名称 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | DEplain-apa | 需请求 | 483 (387/48/48) | 25,607 | 26,471 | 手动 | 13,122 (10,660/1,231/1,231) | DEplain-APA-doc | DEplain-APA-sent |
| 2 | DEplain-web | 开放 | 147 (-/-/147) | 6,138 | 6,402 | 手动 | 1,846 (-/-/1846) | DEplain-web-doc-manual-open | DEplain-web-sent-manual-open |
| 3 | DEplain-web | 开放 | 249 (199/50/-) | 7,087 | 7,760 | 自动 | 652 (514/138/-) | DEplain-web-doc-auto-open | DEplain-web-sent-auto-open |
| 4 | DEplain-web | 封闭 | 360 (288/72/-) | 12,847 | 18,068 | 自动 | 942 (767/175/-) | DEplain-web-doc-auto-closed | DEplain-web-sent-auto-closed |
| 总计 | 混合 | 混合 | 1,239 (874/170/195) | 51,681 | 58,701 | 混合 | 16,562 (11,941/1,544/3,077) |
数据可用性
文档简化
请查看 ./B__Document-level_Corpus 获取文档简化语料库(DEplain-APA-doc 和 DEplain-web-doc)的访问信息。对于 DEplain-APA,请通过 DEplain-APA zenodo 仓库 请求访问。具有开放许可证的 DEplain-web 文档可在此处获取;具有封闭许可证的文档可通过网络爬虫下载。
句子简化
请查看 ./E__Sentence-level_Corpus 获取句子简化语料库(DEplain-APA-sent 和 DEplain-web-sent)的访问信息。对于 DEplain-APA,请通过 DEplain-APA zenodo 仓库 请求访问。具有开放许可证的 DEplain-web 手动对齐句子对和自动对齐句子对可直接从仓库下载。如果下载了具有封闭许可证的 DEplain-web 文档,可以使用提供的对齐算法自动对齐这些文档。
结果复现
自动句子对齐
请查看 ./C__Alignment_Algorithms 以复现实验。
自动文本简化
请查看 ./G__Automatic_Text_Simplification_Experiments 以复现实验。
许可证
不同部分的工作使用不同的许可证。请查看相应子目录获取更多许可证信息。
引用
如果您使用此工作的一部分,请引用我们的论文:
@inproceedings{stodden-etal-2023-deplain, title = "{DE}plain: A {G}erman Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification", author = "Stodden, Regina and Momen, Omar and Kallmeyer, Laura", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.908", doi = "10.18653/v1/2023.acl-long.908", pages = "16441--16463", }




