DEplain/DEplain-APA-doc
收藏Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DEplain/DEplain-APA-doc
下载链接
链接失效反馈官方服务:
资源简介:
DEplain-APA-doc是一个用于德语文档简化任务的子语料库,属于DEplain数据集的一部分。该语料库包含483个平行文档,这些文档由奥地利新闻社提供,并针对CEFR B1和A2级别的读者进行了简化。所有文档均以开放许可发布或已获得版权持有者的共享许可。人类注释者还对文档进行了句子级别的对齐,以构建句子简化语料库。数据集主要用于训练和评估文本简化系统,支持的任务包括文本简化,通常使用SARI和FKBLEU指标进行衡量。数据集的访问受到限制,仅用于非商业研究目的。
DEplain-APA-doc是一个用于德语文档简化任务的子语料库,属于DEplain数据集的一部分。该语料库包含483个平行文档,这些文档由奥地利新闻社提供,并针对CEFR B1和A2级别的读者进行了简化。所有文档均以开放许可发布或已获得版权持有者的共享许可。人类注释者还对文档进行了句子级别的对齐,以构建句子简化语料库。数据集主要用于训练和评估文本简化系统,支持的任务包括文本简化,通常使用SARI和FKBLEU指标进行衡量。数据集的访问受到限制,仅用于非商业研究目的。
提供机构:
DEplain
原始信息汇总
数据集概述
数据集名称
- 名称: DEplain-APA-doc
- 别名: DEplain-APA
数据集描述
- 目的: 用于训练和评估德语文本和句子的简化模型。
- 内容: 包含483对来自奥地利新闻社(APA)的平行文档,分别针对CEFR水平B1和A2的读者。
- 语言: 德语(Austrian German
de-at) - 数据类型: 文本数据
- 任务: 文本简化(text-simplification)
- 支持的评估指标: SARI, FKBLEU
数据集结构
- 数据实例: 每个实例包含原始文档及其简化版本。
- 数据字段: 包括原始文本、简化文本、文档对ID、文本域等。
- 数据分割: 随机分为训练集、开发集和测试集,总计483对文档。
数据集创建
- 来源数据: 由专业翻译人员手动简化的新闻文本。
- 注释过程: 由两名德语母语者使用文本简化注释工具手动对齐句子。
- 许可证: 仅供研究使用,需通过zenodo请求访问。
使用考虑
- 社会影响: 有助于提高文本的可理解性,特别是对阅读能力较低的群体。
- 已知限制: 仅限于非商业研究用途。
附加信息
- 数据集维护者: 德国杜塞尔多夫的海因里希-海涅大学研究人员。
- 引用信息: 使用时请引用相关论文。
数据集详细信息
数据集内容
- 文档数量: 483对平行文档
- 句子对数量: 总计13122对
- 注释者协议: 0.7497(中等)
数据集分割统计
| 分割 | 文档对数量 | 句子对数量 |
|---|---|---|
| 训练集 | 387 | 10660 |
| 开发集 | 48 | 1231 |
| 测试集 | 48 | 1231 |
| 总计 | 483 | 13122 |
数据集字段详细信息
| 字段名 | 描述 |
|---|---|
original |
原始文本 |
simplification |
简化后的文本 |
pair_id |
文档对ID |
domain |
文本域 |
corpus |
子语料库名称 |
license |
数据许可证 |
rater |
注释者ID |
alignment |
对齐类型 |
数据集访问
- 访问方式: 通过zenodo请求访问,仅限学术用途。
数据集引用
- 引用格式: 请参考提供的论文引用信息。



