dennlinger/klexikon

Name: dennlinger/klexikon
Creator: dennlinger
Published: 2022-10-25 15:03:56
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dennlinger/klexikon

下载链接

链接失效反馈

官方服务：

资源简介：

Klexikon数据集是一个德语资源，包含德语维基百科和儿童词典Klexikon之间的文档对齐文本。该数据集旨在联合进行文本简化和摘要任务，包含近2900个对齐的文章对。儿童文章使用的语言比原始维基百科文章更简单，且源（维基百科）和目标（Klexikon）领域之间存在明显的长度差异。数据集的结构包括数据实例、数据字段和数据分割。数据实例表示维基百科文本和Klexikon文本，数据字段包括唯一标识符、标题、URL和文本句子列表。数据集创建过程涉及数据收集、对齐和注释，使用考虑包括社会影响、偏见讨论和其他已知限制。

提供机构：

dennlinger

原始信息汇总

数据集概述

数据集名称

名称: Klexikon
别名: 无

数据集描述

语言: 德语（de-DE）
许可证: CC-BY-SA-4.0
多语言性: 单语
大小: 1K<n<10K
源数据集: 原始数据
任务类别: 摘要生成、文本到文本生成
任务ID: 文本简化
标签: 条件文本生成、简化、文档级

数据集结构

数据实例: 每个实例包含Wikipedia文本（wiki_text）和Klexikon文本（klexikon_text），以及各自的URL（wiki_url和klexikon_url），一个唯一标识符（u_id）和页面标题（title）。
数据字段:
- u_id: 唯一标识符（整数）
- title: Klexikon页面标题（字符串）
- wiki_url: Wikipedia文章URL（字符串）
- klexikon_url: Klexikon文章URL（字符串）
- wiki_text: Wikipedia文章句子列表（字符串列表）
- klexikon_text: Klexikon文章句子列表（字符串列表）
数据分割: 根据Wikipedia和Klexikon文章的长度进行分层分割，训练集2350个样本，验证集274个样本，测试集274个样本。

数据集创建

采集和归一化: 数据从Klexikon和德国Wikipedia收集，通过标题匹配和内容审查进行对齐。
注释过程: 通过手动审查URL进行文章对齐。
注释者: 数据集作者（Dennis Aumiller）。

使用数据注意事项

社会影响: 有助于提高网络文本的可访问性，特别是对弱势读者群体。
偏见讨论: 未测试特定类型的偏见，可能存在由于样本量限制导致的特定内容偏见。
其他已知限制: 由于文章独立编写，不能保证简化文章中的句子与原始文章完全对应。

附加信息

数据集管理员: Dennis Aumiller
许可信息: CC BY-SA 许可
引用信息: 使用数据集或相关代码时，请引用相关论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集