Indonesian GEC Evaluation Corpus

Name: Indonesian GEC Evaluation Corpus
Creator: 广东工业大学计算机科学与技术学院
Published: 2024-10-28 16:44:56
License: 暂无描述

arXiv2024-10-28 更新2024-10-30 收录

下载链接：

https://github.com/GKLMIP/GEC-Construction-Framework

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由广东工业大学计算机科学与技术学院的研究团队创建，旨在为印度尼西亚语的语法错误纠正（GEC）任务提供高质量的评估语料。数据集包含了从2007年到2021年从Antara News Agency爬取的631,964篇文章，涵盖科技、政治、法律、经济、体育和人文六个主题，共计7,613,950条句子。创建过程中，研究团队首先使用合成数据训练印度尼西亚语GEC模型，然后应用该模型修正真实新闻语料中的错误，并通过人工标注建立黄金标准评估语料。该数据集主要用于低资源语言的GEC任务，旨在解决印度尼西亚语等低资源语言在NLP研究中缺乏高质量评估语料的问题。

This dataset was developed by a research team from the School of Computer Science and Technology, Guangdong University of Technology, to provide high-quality evaluation corpora for the Indonesian grammatical error correction (GEC) task. It contains 631,964 articles crawled from Antara News Agency spanning from 2007 to 2021, covering six domains: technology, politics, law, economics, sports, and humanities, with a total of 7,613,950 sentences. During the construction of this dataset, the team first trained an Indonesian GEC model using synthetic data, then utilized this model to correct errors in real news corpora, and finally established a gold-standard evaluation corpus through manual annotation. This dataset is primarily designed for GEC tasks in low-resource languages, aiming to resolve the lack of high-quality evaluation corpora for low-resource languages including Indonesian in NLP research.

提供机构：

广东工业大学计算机科学与技术学院

创建时间：

2024-10-28

原始信息汇总

GEC-Construction-Framework 数据集概述

数据集

文件名: IndonesianTest.json
描述: 自建数据集

模型训练与测试

数据来源: 可通过 Google Driver 获取训练数据
工具: 使用 Fairseq 版本 0.10.2 进行模型训练和测试
训练脚本: bash CUDA_VISIBLE_DEVICES=0 python train.py ./IndoGECDataset --save-dir ./IndoTransformer --seed 4321 --max-epoch 50 --batch-size 64 --max-tokens 4096 --train-subset train --valid-subset valid --arch transformer --lr-scheduler triangular --max-lr 0.004 --lr-period-updates 73328 --clip-norm 2 --lr 0.001 --lr-shrink 0.95 --shrink-min --dropout 0.2 --relu-dropout 0.2 --attention-dropout 0.2 --encoder-embed-dim 512 --decoder-embed-dim 512 --max-target-positions 1024 --max-source-positions 1024 --encoder-ffn-embed-dim 4096 --decoder-ffn-embed-dim 4096 --encoder-attention-heads 8 --decoder-attention-heads 8 --share-all-embeddings --log-interval 1000 --fp16
测试脚本: bash python generate.py IndoGECDataset --path IndoTransformer/checkpoint_best.pt --batch-size 512 --beam 5 --remove-bpe > result/nbest.txt --fp16 cat result/nbest.txt | grep "^H" | python ./sort.py 1 result/output.txt python ./m2scorer/m2scorer -v result/output.txt ./IndoGECDataset/gold > result/result.txt

推理与评估

使用 GPT3.5 或 GPT4 进行推理:
- 英语: python UseChatGPTforEnglish.py
- 印尼语: python UseChatGPT.py
使用开源 LLMs 进行推理: python Inference-Open.py
评估脚本:
- 英语: python EvaluateEnglishResult-ChatGPT.py
- 印尼语 (GPT3.5 或 GPT4): python EvaluateIndonesianResult-Close.py
- 印尼语 (开源 LLMs): python EvaluateIndonesianResult-Open.py

搜集汇总

数据集介绍

构建方式

在构建印尼语语法错误修正评估语料库（Indonesian GEC Evaluation Corpus）的过程中，研究团队采用了一种简单而有效的语料库构建框架。首先，通过爬取印尼安塔拉通讯社的新闻文本，构建了一个包含631,964篇文章的原始语料库。随后，利用自然语言处理工具NLTK对文本进行分词和分句处理，筛选出长度在10到50词之间的句子，生成7,613,950个句子作为基础数据。接着，采用合成数据生成方法，通过删除、添加、替换和位置偏移等操作，模拟生成含有语法错误的句子。最后，训练一个基于Transformer的印尼语语法错误修正模型，并利用该模型对真实新闻语料进行错误检测和修正，对修正后的句子进行人工标注，形成最终的评估语料库。

特点

印尼语语法错误修正评估语料库（Indonesian GEC Evaluation Corpus）具有显著的特点。首先，该语料库基于真实的新闻文本构建，确保了数据的真实性和多样性。其次，通过合成数据生成方法，模拟了多种语法错误类型，包括删除、添加、替换和位置偏移等，使得语料库能够覆盖广泛的错误场景。此外，该语料库采用了人工标注的方式，确保了标注的准确性和可靠性。最后，该语料库还探索了利用大型语言模型（如GPT-3.5-Turbo和GPT-4）进行语料标注的可行性，为低资源语言的语法错误修正任务提供了新的思路。

使用方法

印尼语语法错误修正评估语料库（Indonesian GEC Evaluation Corpus）主要用于评估和训练语法错误修正模型。研究者和开发者可以使用该语料库来训练和验证其语法错误修正模型的性能。具体使用方法包括：首先，将语料库分为训练集、验证集和测试集；然后，利用训练集训练语法错误修正模型，利用验证集调整模型参数，最后使用测试集评估模型的性能。此外，该语料库还可以用于研究大型语言模型在语法错误修正任务中的应用，通过对比不同模型的表现，探索更有效的语法错误修正方法。

背景与挑战

背景概述

在自然语言处理（NLP）领域，语法错误纠正（GEC）研究主要集中在英语和中文等通用语言上。然而，许多低资源语言缺乏可用的评估语料库，这成为了一个显著的挑战。为了填补这一空白，Nankai Lin等研究人员在2024年提出了一种简单而有效的语料库构建框架，专注于印度尼西亚语的GEC任务。该框架不仅解决了现有印度尼西亚语评估语料库的局限性，还探讨了利用现有大型语言模型（如GPT-3.5-Turbo和GPT-4）来简化语料库标注工作的可行性。这一研究对低资源语言的NLP技术发展具有重要意义，尤其是在印度尼西亚语这种拥有超过2.7亿使用者的语言中。

当前挑战

构建印度尼西亚GEC评估语料库面临的主要挑战包括：1) 低资源语言缺乏足够的标注数据，导致模型训练困难；2) 现有评估语料库的质量和覆盖范围有限，难以准确反映真实世界的语法错误分布；3) 利用大型语言模型进行自动标注时，模型在低资源语言上的表现仍有待提升，尤其是在识别和纠正复杂语法错误方面。此外，如何在保持标注质量的同时，减少人工标注的工作量，也是一个亟待解决的问题。

常用场景

经典使用场景

在印尼语语法错误纠正（GEC）领域，Indonesian GEC Evaluation Corpus被广泛用于训练和评估语法纠正模型。该数据集通过模拟真实世界中的语法错误，为模型提供了丰富的训练样本，从而显著提升了模型在低资源语言环境下的性能。研究者们利用这一数据集，不仅能够开发出高效的印尼语语法纠正工具，还能探索大规模语言模型（LLMs）在低资源语言中的应用潜力。

解决学术问题

Indonesian GEC Evaluation Corpus解决了低资源语言在语法错误纠正领域缺乏高质量评估数据集的问题。通过提供一个结构化的、经过人工标注的语法错误数据集，该数据集为学术界提供了一个标准化的评估基准，促进了印尼语语法纠正技术的研究与发展。此外，该数据集还推动了对大规模语言模型在低资源语言中应用的研究，为未来的语言技术发展奠定了基础。

衍生相关工作

基于Indonesian GEC Evaluation Corpus，研究者们开发了多种语法纠正模型和工具，推动了印尼语语法纠正技术的发展。例如，Lin et al. [9]提出的印尼语GEC框架，通过设计词性混淆集来检查和纠正句子中的特定词性错误。此外，Musyafa et al. [12]基于Transformer架构开发了一个通用的GEC模型，不仅适用于印尼语，还可应用于其他低资源语言。这些工作都得益于该数据集的丰富性和高质量标注，为低资源语言的语法纠正研究提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集