five

UA-GEC (UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language)

收藏
OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/UA-GEC
下载链接
链接失效反馈
官方服务:
资源简介:
语法错误纠正 (GEC) 是纠正文本中不同类型错误的任务,例如拼写、标点符号、语法和单词选择错误。我们提供了一个专业注释的语料库,用于语法错误纠正 (GEC) 和流畅的编辑乌克兰语。据我们所知,这是乌克兰语的第一个 GEC 语料库。我们从包括母语和非母语人士在内的不同贡献者中收集了有错误的文本(20,715 个句子)。这些数据涵盖了广泛的写作领域,从文本聊天和论文到正式写作。专业校对人员纠正和注释与流利度、语法、标点和拼写有关的错误。该语料库可用于开发和评估乌克兰语的 GEC 系统。更一般地说,它可用于研究多语言和低资源 NLP、形态丰富的语言、文档级 GEC 和流畅性校正。

Grammatical Error Correction (GEC) refers to the task of correcting various types of errors in text, such as spelling, punctuation, grammatical, and word choice mistakes. We present a professionally annotated corpus for Ukrainian Grammatical Error Correction (GEC) and fluency editing. To the best of our knowledge, this is the first GEC corpus for the Ukrainian language. We collected erroneous text (20,715 sentences) from diverse contributors including both native and non-native speakers. This corpus covers a wide range of writing domains, spanning from text chats and essays to formal writing. Professional proofreaders corrected and annotated errors related to fluency, grammar, punctuation, and spelling. This corpus can be used to develop and evaluate GEC systems for Ukrainian. More broadly, it can be employed for research in multilingual and low-resource NLP, morphologically rich languages, document-level GEC, and fluency correction.
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
UA-GEC是首个乌克兰语语法错误纠正与流畅性编辑语料库,包含20,715个由专业校对人员纠正和注释的句子,覆盖了从文本聊天到正式写作的多种写作领域。该数据集旨在支持乌克兰语GEC系统的开发与评估,并可用于多语言和低资源自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务