five

C4_200M Synthetic Dataset for Grammatical Error Correction

收藏
github2021-12-07 更新2024-05-31 收录
下载链接:
https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于语法错误修正的合成训练数据。语料库通过使用标记的腐败模型对C4中的干净句子进行腐败生成。详细的方法和数据集描述在Stahlberg和Kumar (2021)的BEA 2021论文中有所阐述。

This dataset contains synthetic training data for grammatical error correction. The corpus is generated by corrupting clean sentences from the C4 corpus using a tagged corruption model. Detailed methodologies and dataset descriptions are elaborated in the BEA 2021 paper by Stahlberg and Kumar (2021).
创建时间:
2021-05-21
原始信息汇总

数据集概述

数据集名称

C4_200M Synthetic Dataset for Grammatical Error Correction

数据集描述

该数据集包含用于语法错误修正的合成训练数据,详细描述见BEA 2021论文。生成平行训练数据需先获取C4 corpus,并按照提供的编辑指令进行操作。

数据集生成步骤

  1. 安装依赖

    • 安装Abseil Python包:pip install absl-py
  2. 下载C4_200M corruptions

    • Kaggle Datasets下载C4_200M corruptions,数据以tab-separated values格式存储,分为10个shard。
  3. 提取C4_200M目标句子

    • 使用TensorFlow Datasets或allenai提供的C4版本获取目标句子。
      • TensorFlow Datasets方法:安装tensorflow-datasets,获取C4 corpus版本2.2.1,使用c4200m_get_target_sentences.py脚本提取句子。
      • C4 Dataset in .json.gz格式方法:从allenai提供的.json.gz文件中提取句子。
  4. 应用corruption edits

    • 使用c4200m_make_sentence_pairs.py脚本将edit.tsv*中的编辑应用于target_sentences.tsv*中的句子,生成最终的平行数据集。

数据集许可证

  • 数据集中的corruption edits遵循CC BY 4.0许可证。

引用信息

  • 如需引用,请使用以下BibTeX条目:

    @inproceedings{stahlberg-kumar-2021-synthetic, title = "Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models", author = "Stahlberg, Felix and Kumar, Shankar", booktitle = "Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications", month = apr, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2021.bea-1.4", pages = "37--47", }

搜集汇总
数据集介绍
main_image_url
构建方式
C4_200M数据集是为语法错误校正任务而构建的合成数据集,其构建过程基于C4语料库。首先,从C4语料库中提取200M句子作为目标句子,随后通过Kaggle数据集下载预定义的编辑文件,这些编辑文件以分片形式存储为TSV格式。编辑文件中包含MD5哈希值、字节起始和结束位置以及替换文本。通过Python脚本将编辑应用于目标句子,生成包含错误句子和正确句子的平行数据。整个过程支持并行处理,以提高效率。
使用方法
使用C4_200M数据集时,首先需安装必要的Python依赖项,如Abseil和TensorFlow Datasets。随后,通过下载C4语料库和编辑文件,使用提供的Python脚本提取目标句子并应用编辑,生成平行数据。数据集支持两种提取方式:通过TensorFlow Datasets或直接使用C4的JSON.gz格式文件。生成的数据以TSV格式存储,便于进一步处理和分析。对于多语言版本,需在脚本中指定语言ID。数据集的生成过程支持并行处理,可通过调整参数优化处理速度。
背景与挑战
背景概述
C4_200M 数据集是为语法错误纠正任务而设计的合成数据集,首次发布于2021年,由 Felix Stahlberg 和 Shankar Kumar 等研究人员在 BEA 2021 会议上提出。该数据集基于 C4 语料库,通过引入人工编辑生成平行数据,旨在为语法错误纠正模型提供大规模的训练数据。其核心研究问题在于如何通过合成数据提升语法纠正模型的性能,尤其是在低资源语言环境下。C4_200M 的发布显著推动了语法错误纠正领域的研究,尤其是在数据驱动的模型训练方面,为后续的多语言扩展奠定了基础。
当前挑战
C4_200M 数据集在解决语法错误纠正问题时面临多重挑战。首先,生成高质量的合成数据需要精确的编辑规则,以确保错误类型和分布的多样性,同时避免引入不自然的语言现象。其次,数据集的构建依赖于大规模的 C4 语料库,处理如此庞大的数据量对计算资源和存储提出了较高要求。此外,多语言扩展时,如何在不同语言之间保持一致的错误生成规则和数据集质量,也是一个技术难点。这些挑战不仅体现在数据生成过程中,也影响了后续模型训练的效果和泛化能力。
常用场景
经典使用场景
C4_200M数据集在语法错误纠正(GEC)领域中被广泛应用,尤其是在训练和评估自动语法纠正模型时。该数据集通过生成包含语法错误的句子及其对应的正确版本,为模型提供了丰富的训练数据。研究人员可以利用这些数据来训练深度学习模型,提升其在语法错误检测和纠正方面的性能。
解决学术问题
C4_200M数据集解决了语法错误纠正领域中的两个关键问题:一是缺乏大规模、高质量的平行语料库,二是如何生成多样化的语法错误以增强模型的泛化能力。通过提供200M句对的平行数据,该数据集显著提升了模型的训练效果,并为低资源语言的语法纠正研究提供了新的可能性。
实际应用
在实际应用中,C4_200M数据集被广泛用于开发语法检查工具和语言学习辅助系统。例如,教育技术公司可以利用该数据集训练智能写作助手,帮助非母语学习者识别和纠正语法错误。此外,该数据集还可用于开发多语言语法纠正工具,支持德语、西班牙语、罗马尼亚语和俄语等多种语言的语法检查。
数据集最近研究
最新研究方向
近年来,C4_200M数据集在语法错误纠正(GEC)领域的研究方向主要集中在多语言扩展和低资源语言的语法错误纠正上。随着自然语言处理技术的不断进步,研究者们开始关注如何将已有的英语数据集扩展到其他语言,如德语、西班牙语、罗马尼亚语和俄语。这一扩展不仅丰富了数据集的多样性,还为低资源语言的语法错误纠正提供了宝贵的训练数据。通过引入多语言版本的C4_200M数据集,研究者们能够更好地应对不同语言之间的语法差异,提升模型在多语言环境下的表现。此外,该数据集的应用还推动了语法错误纠正技术在教育和语言学习领域的实际应用,为自动化的语法检查和纠正提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作