Greek Native Corpus (GNC), Greek WikiEdits corpus (GWE)

github2023-07-10 更新2024-05-31 收录

下载链接：

https://github.com/katkorre/elerrant

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含两个现代希腊语数据集：Greek Native Corpus (GNC) 和 Greek WikiEdits corpus (GWE)，这些数据集用于自动标注工具ERRANT的希腊语版本。

本仓库汇集了两个当代希腊语语料库：希腊本土语料库（Greek Native Corpus，简称GNC）与希腊维基编辑语料库（Greek WikiEdits corpus，简称GWE）。上述语料库旨在支持自动标注工具ERRANT的希腊语版本之开发与应用。

创建时间：

2021-08-14

原始信息汇总

数据集概述

数据集名称

Greek Native Corpus (GNC)
Greek WikiEdits corpus (GWE)

数据集用途

用于自动标注平行句子中的错误类型信息。
通过ERRANT工具，从原始句子和修正句子对中提取编辑操作，并根据基于规则的错误类型框架进行分类。

数据集格式

输出文件格式为M2，包含原始句子及编辑标注。
每条编辑标注包括起始和结束的令牌偏移、错误类型及修正字符串。

数据集操作

使用命令行工具进行数据集的标注和评估。
标注命令：parallel(out_m2,orig.txt,[corr.txt])
评估命令：!python errant/commands/compare_m2.py -hyp <hyp_m2> -ref <ref_m2>

数据集评估

评估基于假设M2文件与参考M2文件的比较。
评估指标包括精确度、召回率和F分数，以及真阳性、假阳性和假阴性的计数。

数据集引用

使用此数据集时，应引用相关研究论文。

搜集汇总

数据集介绍

构建方式

Greek Native Corpus (GNC) 和 Greek WikiEdits Corpus (GWE) 是基于现代希腊语的平行语料库，其构建过程依赖于自动标注工具 ERRANT。该工具通过对比原始句子与修正后的句子，提取并分类其中的编辑操作，进而生成包含错误类型信息的 M2 格式文件。ERRANT 采用基于规则的错误类型框架，能够标准化平行数据集，并为语法错误修正提供详细的错误类型评估。

使用方法

使用 GNC 和 GWE 数据集时，可通过 ELERRANT 工具进行自动标注和评估。标注命令 `parallel` 接受原始文本文件和修正文本文件作为输入，生成 M2 格式的标注文件。评估命令 `compare_m2.py` 则用于对比假设 M2 文件和参考 M2 文件，支持不同粒度的错误类型评估，并输出精确率、召回率和 F 值等指标。用户可根据需求选择不同的评估模式，如基于跨度或基于词汇的检测。

背景与挑战

背景概述

Greek Native Corpus (GNC) 和 Greek WikiEdits Corpus (GWE) 是基于现代希腊语的两个新数据集，旨在通过自动标注工具 ERRANT 进行错误类型信息的标注。ERRANT 是由 Christopher Bryant、Mariano Felice 和 Ted Briscoe 在 2017 年提出的，主要用于从原始句子和修正句子的对中提取编辑操作，并根据规则框架对错误类型进行分类。该工具的应用不仅标准化了平行数据集，还为详细的错误类型评估提供了便利。GNC 和 GWE 的创建进一步推动了希腊语自然语言处理领域的发展，特别是在语法错误纠正和语言学习研究方面。

当前挑战

GNC 和 GWE 数据集在构建和应用过程中面临多重挑战。首先，语法错误纠正领域本身具有复杂性，错误类型的多样性和语言结构的细微差别使得自动标注的准确性难以保证。其次，现代希腊语的语法规则和词汇特性增加了数据标注的难度，尤其是在处理不规则动词和复杂句法结构时。此外，数据集的构建依赖于高质量的平行文本，而获取和整理这些文本需要大量的时间和资源。最后，ERRANT 工具虽然提供了标准化的错误分类框架，但在实际应用中仍需针对希腊语的特点进行优化，以确保标注结果的可靠性和一致性。

常用场景

经典使用场景

Greek Native Corpus (GNC) 和 Greek WikiEdits corpus (GWE) 数据集在自然语言处理领域中被广泛用于现代希腊语的语法错误自动标注与评估。通过ERRANT工具，研究者能够对原始句子与修正后的句子进行自动对齐，并提取出其中的编辑操作，进而根据规则框架对错误类型进行分类。这一过程不仅标准化了平行数据集，还为语法错误纠正系统的开发提供了详尽的错误类型分析。

解决学术问题

该数据集解决了语法错误纠正（GEC）领域中的关键问题，即如何自动标注和评估语法错误的类型。通过提供标准化的错误类型框架，GNC和GWE使得研究者能够更精确地分析语法错误的分布与特征，从而推动语法纠正模型的优化与改进。此外，这些数据集还为多语言语法纠正研究提供了宝贵的资源，填补了现代希腊语在这一领域的空白。

实际应用

在实际应用中，GNC和GWE数据集被广泛应用于教育技术领域，特别是在语言学习平台的开发中。通过利用这些数据集，开发者能够构建高效的语法错误检测与纠正工具，帮助学习者识别并改正写作中的语法错误。此外，这些数据集还被用于机器翻译系统的优化，提升翻译结果的语言准确性与流畅性。

数据集最近研究