DEplain/DEplain-web-sent
收藏Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DEplain/DEplain-web-sent
下载链接
链接失效反馈官方服务:
资源简介:
DEplain-web-sent是一个用于德语句子简化评估的子语料库,包含1846对句子,这些句子来自147个并行文档,涵盖了标准德语和简单德语(或易读德语)。数据集仅包含测试集,适用于文本简化模型的评估。所有文档均以开放许可证发布,或版权持有人允许共享数据。数据集的创建过程包括从网页抓取数据、手动简化文本、句子对齐等步骤。
提供机构:
DEplain
原始信息汇总
数据集概述
数据集名称
- 名称: DEplain-web-sent
- 别名: DEplain-web
数据集描述
- 目的: 用于评估德语句子简化。
- 内容: 包含1846个句子对,来自147个平行文档,这些文档从网络爬取,包括标准德语和简单德语(或易读德语)。
- 语言: 德语(de)
- 许可: 多种开放许可
- 多语言性: 单语(德语)
- 标签: 句子简化, 网络文本, 简单语言, 易读语言
- 任务类别: 文本到文本生成
- 任务ID: 文本简化
数据集结构
-
数据实例:
- 文档简化配置: 包含原始文档和参考简化文档。
- 句子简化配置: 包含原始句子和手动对齐的参考简化句子。
- 句子级对齐配置: 包含原始和简化文档及手动对齐的句子对。
-
数据字段:
original: 原始文本simplification: 简化文本pair_id: 文档对IDdomain: 文档领域corpus: 子语料库名称license: 数据许可alignment: 对齐类型
数据集创建
- 数据收集: 使用网络爬虫从网站收集平行文档。
- 数据简化: 由专业翻译手动简化文本。
- 数据对齐: 由两名德语母语者使用文本简化注释工具手动对齐句子对。
使用考虑
- 社会影响: 通过自动文本简化方法,帮助不理解复杂文本的人理解文本。
- 已知限制: 数据集根据每个网站的许可提供不同的开放许可。
附加信息
- 数据集维护者: 海因里希-海涅大学杜塞尔多夫分校的研究人员。
- 许可信息: 包括CC-BY-SA-3, CC-BY-4, CC-BY-NC-ND-4等许可。
- 引用信息: 参考Stodden等人的论文进行引用。



