carbon225/poleval-abbreviation-disambiguation-wiki
收藏Hugging Face2023-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carbon225/poleval-abbreviation-disambiguation-wiki
下载链接
链接失效反馈官方服务:
资源简介:
PolEval 2022 Task 2 Pretraining Dataset是一个用于波兰语缩写消歧的预训练数据集。缩写消歧是将缩写扩展为完整形式的过程,例如将eng.扩展为engineer。在波兰语中,由于创建缩写的多种方式以及额外的变形形式,这一任务更加复杂。该数据集包含用于预训练的数据,适用于损坏文本恢复、基础/变形形式预测和缩写消歧等任务。数据集的字段包括`text`和`labels`,其中`text`是包含缩写的上下文,`labels`是扩展缩写的变形和基础形式。数据集的语言为波兰语,大小在10M到100M之间。
PolEval 2022 Task 2 Pretraining Dataset是一个用于波兰语缩写消歧的预训练数据集。缩写消歧是将缩写扩展为完整形式的过程,例如将eng.扩展为engineer。在波兰语中,由于创建缩写的多种方式以及额外的变形形式,这一任务更加复杂。该数据集包含用于预训练的数据,适用于损坏文本恢复、基础/变形形式预测和缩写消歧等任务。数据集的字段包括`text`和`labels`,其中`text`是包含缩写的上下文,`labels`是扩展缩写的变形和基础形式。数据集的语言为波兰语,大小在10M到100M之间。
提供机构:
carbon225
原始信息汇总
数据集概述
名称: PolEval 2022 Task 2 Pretraining Dataset
描述: 该数据集用于2022年PolEval竞赛任务2的预训练,主要关注波兰语中的缩写词消歧任务。缩写词消歧是将缩写词(如“eng.”)扩展为其完整形式(如“engineer”)的过程。由于波兰语中缩写词的多样性和额外的词形变化,这一任务具有一定的复杂性。
支持的任务
- 损坏文本修复
- 词形/基本形式预测
- 缩写词消歧
语言
- 波兰语
数据集结构
字段:
text:包含一个缩写词的上下文,长度为140到200个字符。labels:缩写词的词形变化和基本形式。
格式:
- 缩写词在
text字段中被<mask>和</mask>包围。 labels字段的格式为词形变化; 基本形式。
示例:
| text | labels |
|---|---|
jest zgodny ze światem, w którym istnieje problem zła i cierpienie, a <mask>bs.</mask> miłość jest ukryta przed wieloma osobami. Podobną argumentację |
boska; boski |



