five

dennlinger/klexikon

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dennlinger/klexikon
下载链接
链接失效反馈
官方服务:
资源简介:
Klexikon数据集是一个德语资源,包含德语维基百科和儿童词典Klexikon之间的文档对齐文本。该数据集旨在联合进行文本简化和摘要任务,包含近2900个对齐的文章对。儿童文章使用的语言比原始维基百科文章更简单,且源(维基百科)和目标(Klexikon)领域之间存在明显的长度差异。数据集的结构包括数据实例、数据字段和数据分割。数据实例表示维基百科文本和Klexikon文本,数据字段包括唯一标识符、标题、URL和文本句子列表。数据集创建过程涉及数据收集、对齐和注释,使用考虑包括社会影响、偏见讨论和其他已知限制。
提供机构:
dennlinger
原始信息汇总

数据集概述

数据集名称

  • 名称: Klexikon
  • 别名: 无

数据集描述

  • 语言: 德语(de-DE)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语
  • 大小: 1K<n<10K
  • 源数据集: 原始数据
  • 任务类别: 摘要生成、文本到文本生成
  • 任务ID: 文本简化
  • 标签: 条件文本生成、简化、文档级

数据集结构

  • 数据实例: 每个实例包含Wikipedia文本(wiki_text)和Klexikon文本(klexikon_text),以及各自的URL(wiki_urlklexikon_url),一个唯一标识符(u_id)和页面标题(title)。
  • 数据字段:
    • u_id: 唯一标识符(整数)
    • title: Klexikon页面标题(字符串)
    • wiki_url: Wikipedia文章URL(字符串)
    • klexikon_url: Klexikon文章URL(字符串)
    • wiki_text: Wikipedia文章句子列表(字符串列表)
    • klexikon_text: Klexikon文章句子列表(字符串列表)
  • 数据分割: 根据Wikipedia和Klexikon文章的长度进行分层分割,训练集2350个样本,验证集274个样本,测试集274个样本。

数据集创建

  • 采集和归一化: 数据从Klexikon和德国Wikipedia收集,通过标题匹配和内容审查进行对齐。
  • 注释过程: 通过手动审查URL进行文章对齐。
  • 注释者: 数据集作者(Dennis Aumiller)。

使用数据注意事项

  • 社会影响: 有助于提高网络文本的可访问性,特别是对弱势读者群体。
  • 偏见讨论: 未测试特定类型的偏见,可能存在由于样本量限制导致的特定内容偏见。
  • 其他已知限制: 由于文章独立编写,不能保证简化文章中的句子与原始文章完全对应。

附加信息

  • 数据集管理员: Dennis Aumiller
  • 许可信息: CC BY-SA 许可
  • 引用信息: 使用数据集或相关代码时,请引用相关论文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作