five

DEplain/DEplain-APA-doc

收藏
Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DEplain/DEplain-APA-doc
下载链接
链接失效反馈
官方服务:
资源简介:
DEplain-APA-doc是一个用于德语文档简化任务的子语料库,属于DEplain数据集的一部分。该语料库包含483个平行文档,这些文档由奥地利新闻社提供,并针对CEFR B1和A2级别的读者进行了简化。所有文档均以开放许可发布或已获得版权持有者的共享许可。人类注释者还对文档进行了句子级别的对齐,以构建句子简化语料库。数据集主要用于训练和评估文本简化系统,支持的任务包括文本简化,通常使用SARI和FKBLEU指标进行衡量。数据集的访问受到限制,仅用于非商业研究目的。

DEplain-APA-doc是一个用于德语文档简化任务的子语料库,属于DEplain数据集的一部分。该语料库包含483个平行文档,这些文档由奥地利新闻社提供,并针对CEFR B1和A2级别的读者进行了简化。所有文档均以开放许可发布或已获得版权持有者的共享许可。人类注释者还对文档进行了句子级别的对齐,以构建句子简化语料库。数据集主要用于训练和评估文本简化系统,支持的任务包括文本简化,通常使用SARI和FKBLEU指标进行衡量。数据集的访问受到限制,仅用于非商业研究目的。
提供机构:
DEplain
原始信息汇总

数据集概述

数据集名称

  • 名称: DEplain-APA-doc
  • 别名: DEplain-APA

数据集描述

  • 目的: 用于训练和评估德语文本和句子的简化模型。
  • 内容: 包含483对来自奥地利新闻社(APA)的平行文档,分别针对CEFR水平B1和A2的读者。
  • 语言: 德语(Austrian German de-at
  • 数据类型: 文本数据
  • 任务: 文本简化(text-simplification)
  • 支持的评估指标: SARI, FKBLEU

数据集结构

  • 数据实例: 每个实例包含原始文档及其简化版本。
  • 数据字段: 包括原始文本、简化文本、文档对ID、文本域等。
  • 数据分割: 随机分为训练集、开发集和测试集,总计483对文档。

数据集创建

  • 来源数据: 由专业翻译人员手动简化的新闻文本。
  • 注释过程: 由两名德语母语者使用文本简化注释工具手动对齐句子。
  • 许可证: 仅供研究使用,需通过zenodo请求访问。

使用考虑

  • 社会影响: 有助于提高文本的可理解性,特别是对阅读能力较低的群体。
  • 已知限制: 仅限于非商业研究用途。

附加信息

  • 数据集维护者: 德国杜塞尔多夫的海因里希-海涅大学研究人员。
  • 引用信息: 使用时请引用相关论文。

数据集详细信息

数据集内容

  • 文档数量: 483对平行文档
  • 句子对数量: 总计13122对
  • 注释者协议: 0.7497(中等)

数据集分割统计

分割 文档对数量 句子对数量
训练集 387 10660
开发集 48 1231
测试集 48 1231
总计 483 13122

数据集字段详细信息

字段名 描述
original 原始文本
simplification 简化后的文本
pair_id 文档对ID
domain 文本域
corpus 子语料库名称
license 数据许可证
rater 注释者ID
alignment 对齐类型

数据集访问

  • 访问方式: 通过zenodo请求访问,仅限学术用途。

数据集引用

  • 引用格式: 请参考提供的论文引用信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作