five

carbon225/poleval-abbreviation-disambiguation-wiki

收藏
Hugging Face2023-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carbon225/poleval-abbreviation-disambiguation-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
PolEval 2022 Task 2 Pretraining Dataset是一个用于波兰语缩写消歧的预训练数据集。缩写消歧是将缩写扩展为完整形式的过程,例如将eng.扩展为engineer。在波兰语中,由于创建缩写的多种方式以及额外的变形形式,这一任务更加复杂。该数据集包含用于预训练的数据,适用于损坏文本恢复、基础/变形形式预测和缩写消歧等任务。数据集的字段包括`text`和`labels`,其中`text`是包含缩写的上下文,`labels`是扩展缩写的变形和基础形式。数据集的语言为波兰语,大小在10M到100M之间。

PolEval 2022 Task 2 Pretraining Dataset是一个用于波兰语缩写消歧的预训练数据集。缩写消歧是将缩写扩展为完整形式的过程,例如将eng.扩展为engineer。在波兰语中,由于创建缩写的多种方式以及额外的变形形式,这一任务更加复杂。该数据集包含用于预训练的数据,适用于损坏文本恢复、基础/变形形式预测和缩写消歧等任务。数据集的字段包括`text`和`labels`,其中`text`是包含缩写的上下文,`labels`是扩展缩写的变形和基础形式。数据集的语言为波兰语,大小在10M到100M之间。
提供机构:
carbon225
原始信息汇总

数据集概述

名称: PolEval 2022 Task 2 Pretraining Dataset

描述: 该数据集用于2022年PolEval竞赛任务2的预训练,主要关注波兰语中的缩写词消歧任务。缩写词消歧是将缩写词(如“eng.”)扩展为其完整形式(如“engineer”)的过程。由于波兰语中缩写词的多样性和额外的词形变化,这一任务具有一定的复杂性。

支持的任务

  • 损坏文本修复
  • 词形/基本形式预测
  • 缩写词消歧

语言

  • 波兰语

数据集结构

字段:

  • text:包含一个缩写词的上下文,长度为140到200个字符。
  • labels:缩写词的词形变化和基本形式。

格式:

  • 缩写词在text字段中被<mask></mask>包围。
  • labels字段的格式为词形变化; 基本形式

示例:

text labels
jest zgodny ze światem, w którym istnieje problem zła i cierpienie, a <mask>bs.</mask> miłość jest ukryta przed wieloma osobami. Podobną argumentację boska; boski
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作