dennlinger/klexikon
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dennlinger/klexikon
下载链接
链接失效反馈官方服务:
资源简介:
Klexikon数据集是一个德语资源,包含德语维基百科和儿童词典Klexikon之间的文档对齐文本。该数据集旨在联合进行文本简化和摘要任务,包含近2900个对齐的文章对。儿童文章使用的语言比原始维基百科文章更简单,且源(维基百科)和目标(Klexikon)领域之间存在明显的长度差异。数据集的结构包括数据实例、数据字段和数据分割。数据实例表示维基百科文本和Klexikon文本,数据字段包括唯一标识符、标题、URL和文本句子列表。数据集创建过程涉及数据收集、对齐和注释,使用考虑包括社会影响、偏见讨论和其他已知限制。
提供机构:
dennlinger
原始信息汇总
数据集概述
数据集名称
- 名称: Klexikon
- 别名: 无
数据集描述
- 语言: 德语(de-DE)
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语
- 大小: 1K<n<10K
- 源数据集: 原始数据
- 任务类别: 摘要生成、文本到文本生成
- 任务ID: 文本简化
- 标签: 条件文本生成、简化、文档级
数据集结构
- 数据实例: 每个实例包含Wikipedia文本(
wiki_text)和Klexikon文本(klexikon_text),以及各自的URL(wiki_url和klexikon_url),一个唯一标识符(u_id)和页面标题(title)。 - 数据字段:
u_id: 唯一标识符(整数)title: Klexikon页面标题(字符串)wiki_url: Wikipedia文章URL(字符串)klexikon_url: Klexikon文章URL(字符串)wiki_text: Wikipedia文章句子列表(字符串列表)klexikon_text: Klexikon文章句子列表(字符串列表)
- 数据分割: 根据Wikipedia和Klexikon文章的长度进行分层分割,训练集2350个样本,验证集274个样本,测试集274个样本。
数据集创建
- 采集和归一化: 数据从Klexikon和德国Wikipedia收集,通过标题匹配和内容审查进行对齐。
- 注释过程: 通过手动审查URL进行文章对齐。
- 注释者: 数据集作者(Dennis Aumiller)。
使用数据注意事项
- 社会影响: 有助于提高网络文本的可访问性,特别是对弱势读者群体。
- 偏见讨论: 未测试特定类型的偏见,可能存在由于样本量限制导致的特定内容偏见。
- 其他已知限制: 由于文章独立编写,不能保证简化文章中的句子与原始文章完全对应。
附加信息
- 数据集管理员: Dennis Aumiller
- 许可信息: CC BY-SA 许可
- 引用信息: 使用数据集或相关代码时,请引用相关论文。



