five

DEplain/DEplain-web-sent

收藏
Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DEplain/DEplain-web-sent
下载链接
链接失效反馈
官方服务:
资源简介:
DEplain-web-sent是一个用于德语句子简化评估的子语料库,包含1846对句子,这些句子来自147个并行文档,涵盖了标准德语和简单德语(或易读德语)。数据集仅包含测试集,适用于文本简化模型的评估。所有文档均以开放许可证发布,或版权持有人允许共享数据。数据集的创建过程包括从网页抓取数据、手动简化文本、句子对齐等步骤。
提供机构:
DEplain
原始信息汇总

数据集概述

数据集名称

  • 名称: DEplain-web-sent
  • 别名: DEplain-web

数据集描述

  • 目的: 用于评估德语句子简化。
  • 内容: 包含1846个句子对,来自147个平行文档,这些文档从网络爬取,包括标准德语和简单德语(或易读德语)。
  • 语言: 德语(de)
  • 许可: 多种开放许可
  • 多语言性: 单语(德语)
  • 标签: 句子简化, 网络文本, 简单语言, 易读语言
  • 任务类别: 文本到文本生成
  • 任务ID: 文本简化

数据集结构

  • 数据实例:

    • 文档简化配置: 包含原始文档和参考简化文档。
    • 句子简化配置: 包含原始句子和手动对齐的参考简化句子。
    • 句子级对齐配置: 包含原始和简化文档及手动对齐的句子对。
  • 数据字段:

    • original: 原始文本
    • simplification: 简化文本
    • pair_id: 文档对ID
    • domain: 文档领域
    • corpus: 子语料库名称
    • license: 数据许可
    • alignment: 对齐类型

数据集创建

  • 数据收集: 使用网络爬虫从网站收集平行文档。
  • 数据简化: 由专业翻译手动简化文本。
  • 数据对齐: 由两名德语母语者使用文本简化注释工具手动对齐句子对。

使用考虑

  • 社会影响: 通过自动文本简化方法,帮助不理解复杂文本的人理解文本。
  • 已知限制: 数据集根据每个网站的许可提供不同的开放许可。

附加信息

  • 数据集维护者: 海因里希-海涅大学杜塞尔多夫分校的研究人员。
  • 许可信息: 包括CC-BY-SA-3, CC-BY-4, CC-BY-NC-ND-4等许可。
  • 引用信息: 参考Stodden等人的论文进行引用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作