DEplain/DEplain-web-doc
收藏Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DEplain/DEplain-web-doc
下载链接
链接失效反馈官方服务:
资源简介:
DEplain-web-doc是DEplain的一个子集,专门用于德语文档简化。该数据集包含从网络上抓取的396个并行文档,这些文档以标准德语和简单德语(或易读德语)编写。所有文档均以开放许可证发布或版权持有者允许共享数据。数据集支持文本简化任务,并提供了手动对齐的句子对。数据集的结构包括文档级和句子级的简化配置,并提供了详细的数据字段描述。数据集的创建过程包括从网络抓取数据、手动简化文本、以及使用工具进行句子对齐。数据集的社会影响在于通过自动文本简化方法帮助人们理解复杂文本。
DEplain-web-doc是DEplain的一个子集,专门用于德语文档简化。该数据集包含从网络上抓取的396个并行文档,这些文档以标准德语和简单德语(或易读德语)编写。所有文档均以开放许可证发布或版权持有者允许共享数据。数据集支持文本简化任务,并提供了手动对齐的句子对。数据集的结构包括文档级和句子级的简化配置,并提供了详细的数据字段描述。数据集的创建过程包括从网络抓取数据、手动简化文本、以及使用工具进行句子对齐。数据集的社会影响在于通过自动文本简化方法帮助人们理解复杂文本。
提供机构:
DEplain
原始信息汇总
数据集概述
数据集名称
- 名称: DEplain-web-doc
- 别名: DEplain-web
数据集描述
- 目的: 用于评估德语文本和文档简化的数据集。
- 内容: 包含396个(199/50/147)从网络上爬取的平行文档,这些文档分别使用标准德语和简单德语(或易读德语)编写。
- 语言: 德语(de-de)
- 许可证: 包含多种开放许可证,具体取决于数据来源。
数据集结构
- 数据实例:
document-simplification: 包含原始文档及其简化版本。sentence-simplification: 包含原始句子及其手动对齐的简化版本。sentence-wise alignment: 包含原始和简化文档以及手动对齐的句子对。
- 数据字段:
original: 原始文本simplification: 简化文本pair_id: 文档对IDdomain: 文档领域license: 数据许可证- 其他详细字段请参见README文件。
数据集创建
- 数据收集: 使用网络爬虫从网站上收集平行文档。
- 数据简化: 由专业翻译人员手动简化文本。
- 数据对齐: 由两名德语母语者使用文本简化标注工具手动对齐句子对。
使用考虑
- 社会影响: 通过自动文本简化方法,帮助难以理解复杂文本的人群。
- 许可证: 数据集根据不同网站的许可证提供,使用时需检查具体许可证信息。
附加信息
- 数据集维护者: 海因里希-海涅大学杜塞尔多夫分校的研究人员。
- 许可证信息: 包含CC-BY-SA-3, CC-BY-4, CC-BY-NC-ND-4等许可证。
- 引用信息: 请参见README文件中的引用格式。



