C4_200M Synthetic Dataset for Grammatical Error Correction

github2021-12-07 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于语法错误修正的合成训练数据。语料库通过使用标记的腐败模型对C4中的干净句子进行腐败生成。详细的方法和数据集描述在Stahlberg和Kumar (2021)的BEA 2021论文中有所阐述。

This dataset contains synthetic training data for grammatical error correction. The corpus is generated by corrupting clean sentences from the C4 corpus using a tagged corruption model. Detailed methodologies and dataset descriptions are elaborated in the BEA 2021 paper by Stahlberg and Kumar (2021).

创建时间：

2021-05-21

原始信息汇总

数据集概述

数据集名称

C4_200M Synthetic Dataset for Grammatical Error Correction

数据集描述

该数据集包含用于语法错误修正的合成训练数据，详细描述见BEA 2021论文。生成平行训练数据需先获取C4 corpus，并按照提供的编辑指令进行操作。

数据集生成步骤

安装依赖
- 安装Abseil Python包：pip install absl-py
下载C4_200M corruptions
- 从Kaggle Datasets下载C4_200M corruptions，数据以tab-separated values格式存储，分为10个shard。
提取C4_200M目标句子
- 使用TensorFlow Datasets或allenai提供的C4版本获取目标句子。
  - TensorFlow Datasets方法：安装tensorflow-datasets，获取C4 corpus版本2.2.1，使用c4200m_get_target_sentences.py脚本提取句子。
  - C4 Dataset in .json.gz格式方法：从allenai提供的.json.gz文件中提取句子。
应用corruption edits
- 使用c4200m_make_sentence_pairs.py脚本将edit.tsv*中的编辑应用于target_sentences.tsv*中的句子，生成最终的平行数据集。

数据集许可证

数据集中的corruption edits遵循CC BY 4.0许可证。

引用信息

如需引用，请使用以下BibTeX条目：

@inproceedings{stahlberg-kumar-2021-synthetic, title = "Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models", author = "Stahlberg, Felix and Kumar, Shankar", booktitle = "Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications", month = apr, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2021.bea-1.4", pages = "37--47", }

搜集汇总

数据集介绍

构建方式

C4_200M数据集是为语法错误校正任务而构建的合成数据集，其构建过程基于C4语料库。首先，从C4语料库中提取200M句子作为目标句子，随后通过Kaggle数据集下载预定义的编辑文件，这些编辑文件以分片形式存储为TSV格式。编辑文件中包含MD5哈希值、字节起始和结束位置以及替换文本。通过Python脚本将编辑应用于目标句子，生成包含错误句子和正确句子的平行数据。整个过程支持并行处理，以提高效率。

使用方法

使用C4_200M数据集时，首先需安装必要的Python依赖项，如Abseil和TensorFlow Datasets。随后，通过下载C4语料库和编辑文件，使用提供的Python脚本提取目标句子并应用编辑，生成平行数据。数据集支持两种提取方式：通过TensorFlow Datasets或直接使用C4的JSON.gz格式文件。生成的数据以TSV格式存储，便于进一步处理和分析。对于多语言版本，需在脚本中指定语言ID。数据集的生成过程支持并行处理，可通过调整参数优化处理速度。

背景与挑战

背景概述

C4_200M 数据集是为语法错误纠正任务而设计的合成数据集，首次发布于2021年，由 Felix Stahlberg 和 Shankar Kumar 等研究人员在 BEA 2021 会议上提出。该数据集基于 C4 语料库，通过引入人工编辑生成平行数据，旨在为语法错误纠正模型提供大规模的训练数据。其核心研究问题在于如何通过合成数据提升语法纠正模型的性能，尤其是在低资源语言环境下。C4_200M 的发布显著推动了语法错误纠正领域的研究，尤其是在数据驱动的模型训练方面，为后续的多语言扩展奠定了基础。

当前挑战

C4_200M 数据集在解决语法错误纠正问题时面临多重挑战。首先，生成高质量的合成数据需要精确的编辑规则，以确保错误类型和分布的多样性，同时避免引入不自然的语言现象。其次，数据集的构建依赖于大规模的 C4 语料库，处理如此庞大的数据量对计算资源和存储提出了较高要求。此外，多语言扩展时，如何在不同语言之间保持一致的错误生成规则和数据集质量，也是一个技术难点。这些挑战不仅体现在数据生成过程中，也影响了后续模型训练的效果和泛化能力。

常用场景

经典使用场景

C4_200M数据集在语法错误纠正（GEC）领域中被广泛应用，尤其是在训练和评估自动语法纠正模型时。该数据集通过生成包含语法错误的句子及其对应的正确版本，为模型提供了丰富的训练数据。研究人员可以利用这些数据来训练深度学习模型，提升其在语法错误检测和纠正方面的性能。

解决学术问题

C4_200M数据集解决了语法错误纠正领域中的两个关键问题：一是缺乏大规模、高质量的平行语料库，二是如何生成多样化的语法错误以增强模型的泛化能力。通过提供200M句对的平行数据，该数据集显著提升了模型的训练效果，并为低资源语言的语法纠正研究提供了新的可能性。

实际应用

在实际应用中，C4_200M数据集被广泛用于开发语法检查工具和语言学习辅助系统。例如，教育技术公司可以利用该数据集训练智能写作助手，帮助非母语学习者识别和纠正语法错误。此外，该数据集还可用于开发多语言语法纠正工具，支持德语、西班牙语、罗马尼亚语和俄语等多种语言的语法检查。

数据集最近研究