UA-GEC

github2024-02-11 更新2024-05-31 收录

下载链接：

https://github.com/grammarly/ua-gec

下载链接

链接失效反馈

官方服务：

资源简介：

UA-GEC是一个针对乌克兰语的语法错误修正和流畅性语料库，包含详细的注释和元数据，用于支持乌克兰语的语法错误修正研究和开发。

UA-GEC is a grammar error correction and fluency corpus for the Ukrainian language, containing detailed annotations and metadata, designed to support research and development in grammar error correction for Ukrainian.

创建时间：

2021-01-20

原始信息汇总

数据集概述

数据集名称

UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language

数据集内容

数据位置: 所有数据和元数据存储在./data目录下，包含gec-fluency和gec-only两个子目录，分别对应不同的数据版本。
数据结构: 每个子目录下包含train和test两个子文件夹，分别用于训练和测试。这些文件夹下又分为annotated、source和target三个子目录，分别存储标注后的文档、原始文档和修正后的文档。
数据格式: 标注文件采用{error=>edit:::error_type=Tag}格式，其中error和edit分别表示错误文本和修正后的文本，Tag表示错误类型。

元数据

存储位置: ./data/metadata.csv
字段: id, author_id, is_native, region, gender, occupation, submission_type, source_language, annotator_id, partition, is_sensitive

标注格式

错误类型: 包括拼写、标点、语法和流畅性相关的错误。
语法错误: 如G/Case, G/Gender, G/Number等。
流畅性错误: 如F/Style, F/Calque, F/Collocation等。

训练与测试分割

使用建议: 建议仅使用train分割进行模型训练和调优，test分割仅用于最终模型的评分报告。

统计信息

GEC+Fluency:
- 总计: 1,872文档，33,735句子，500,618词，828作者，46,071错误。
- 训练集: 1,706文档，31,038句子，457,017词，752作者，38,213错误。
- 测试集: 166文档，2,697句子，43,601词，76作者，7,858错误。
GEC-only:
- 总计: 1,872文档，33,750句子，500,609词，828作者，36,218错误。
- 训练集: 1,706文档，31,046句子，457,004词，752作者，30,049错误。
- 测试集: 166文档，2,704句子，43,605词，76作者，6,169错误。

Python库支持

功能: 提供处理标注文本的工具，如迭代文档、读取元数据、处理标注等。
安装: 可通过pip安装，或从源代码安装。
使用示例: 展示了如何从Python代码中获取并处理标注文档。

搜集汇总

数据集介绍

构建方式

UA-GEC数据集的构建过程体现了对乌克兰语语法错误校正和流畅性修正的深入研究。该数据集通过收集来自不同背景的贡献者（包括母语和非母语者）的文本，涵盖了从聊天记录到正式写作的多种写作领域。专业校对人员对这些文本进行了校正和标注，标注内容包括流畅性、语法、标点和拼写错误。数据集分为GEC+Fluency和GEC-only两个版本，以满足不同的研究需求。

特点

UA-GEC数据集的特点在于其广泛的覆盖范围和详细的错误标注。数据集包含33,735个句子，涵盖了多种写作风格和领域，确保了数据的多样性和代表性。每个句子都经过专业校对人员的详细标注，标注内容包括语法错误、流畅性错误、标点错误和拼写错误。此外，数据集还提供了丰富的元数据，如作者信息、地区、性别和职业等，为研究者提供了多维度的分析视角。

使用方法

使用UA-GEC数据集时，研究者可以通过Python库`ua_gec`轻松访问和处理数据。该库提供了多种工具，用于迭代文档、读取元数据和处理标注。研究者可以通过`pip`安装该库，并使用其提供的类和方法进行数据操作。例如，可以获取原始文本、校正文本和标注文本，并进一步分析错误类型和元数据。此外，数据集还提供了训练集和测试集的划分，研究者可以在训练集上训练和调优模型，并在测试集上评估最终模型的性能。

背景与挑战

背景概述

UA-GEC数据集是专为乌克兰语设计的语法错误校正与流畅性语料库，由Grammarly等机构的研究人员于2021年首次发布，并在2022年更新至2.0版本。该数据集旨在解决乌克兰语在语法错误校正（GEC）和流畅性编辑方面的研究需求，涵盖了从文本聊天到正式写作的多种写作领域。数据集包含33,735个句子，由专业校对人员进行校正和注释，标注了拼写、标点、语法和流畅性等多类错误。作为乌克兰语的首个GEC语料库，UA-GEC不仅为乌克兰语的语法校正系统开发提供了重要资源，还为多语言和低资源自然语言处理研究提供了宝贵数据。

当前挑战

UA-GEC数据集在构建和应用过程中面临多重挑战。首先，乌克兰语作为一种形态丰富的语言，其语法结构复杂，错误类型多样，如何准确标注和校正这些错误成为一大难题。其次，数据集的构建依赖于多样化的文本来源，包括母语和非母语使用者的写作，如何确保数据的代表性和平衡性是一个关键问题。此外，流畅性编辑的引入增加了标注的复杂性，要求校对人员不仅关注语法错误，还需考虑文本的风格和自然度。在应用层面，如何利用该数据集开发高效的GEC系统，特别是在低资源环境下，仍是一个亟待解决的研究挑战。

常用场景

经典使用场景

UA-GEC数据集在乌克兰语语法错误纠正（GEC）和流畅性编辑领域具有重要应用。该数据集广泛用于训练和评估乌克兰语语法纠正系统，特别是在处理拼写、标点、语法和流畅性错误方面。研究人员可以利用该数据集开发先进的自然语言处理模型，提升乌克兰语文本的准确性和可读性。

实际应用

在实际应用中，UA-GEC数据集被广泛用于开发乌克兰语语法纠正工具和语言学习辅助系统。这些工具可以帮助用户提高写作质量，特别是在学术写作、商务沟通和日常交流中。此外，该数据集还可用于构建自动校对系统，提升乌克兰语文本的准确性和流畅性。

衍生相关工作

UA-GEC数据集衍生了一系列相关研究，特别是在乌克兰语语法纠正和流畅性编辑领域。基于该数据集的研究成果已被应用于开发多语言GEC系统，支持低资源语言的语法纠正。此外，该数据集还促进了文档级GEC和流畅性纠正技术的研究，推动了乌克兰语自然语言处理的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集