GitHub Typo Corpus

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/mhagiwara/github-typo-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Typo Corpus是一个大规模的多语言数据集，专门收集自GitHub的拼写错误和语法错误的修正。该数据集包含超过35万个编辑和6500万个字符，涵盖超过15种语言，是目前最大的拼写错误数据集。

The GitHub Typo Corpus is a large-scale multilingual dataset specifically curated from spelling and grammatical error corrections on GitHub. This dataset encompasses over 350,000 edits and 65 million characters, covering more than 15 languages, making it the largest spelling error dataset currently available.

创建时间：

2019-11-28

原始信息汇总

GitHub Typo Corpus 数据集概述

数据集描述

名称: GitHub Typo Corpus
类型: 大规模多语言拼写和语法错误数据集
内容: 包含超过35万个编辑和6500万个字符，涵盖超过15种语言
格式: JSONL格式，每行一个提交对象

数据集结构

每个提交对象包含以下键值：

repo: 仓库URL
commit: 提交哈希
message: 提交信息
edits: 编辑列表，每个编辑对象包含：
- src: 编辑前的文本信息
- tgt: 编辑后的文本信息
- prob_typo: 编辑为拼写错误的概率
- is_typo: 是否为拼写错误（如果prob_typo > 0.5）
- src 和 tgt 进一步包含：
  - text: 文本内容
  - path: 文件路径
  - lang: 语言（自动检测）
  - ppl: 文本的语言模型困惑度

数据集下载

链接: GitHub Typo Corpus (ver. 1.0.0)

使用建议

推荐使用工具如 jq 浏览文件

搜集汇总

数据集介绍

构建方式

GitHub Typo Corpus 数据集的构建基于从GitHub上收集的大量代码提交记录，通过自动化工具提取其中的拼写和语法错误及其修正。该数据集涵盖了超过35万次编辑和6500万字符，涉及15种以上的语言。构建过程中，使用了GitPython库来处理代码仓库，并通过NanigoNet语言检测工具自动识别文本的语言类型。每个提交对象以JSONL格式存储，包含仓库URL、提交哈希、提交信息以及详细的编辑信息，如编辑前后的文本、文件路径、语言类型、语言模型测得的分词困惑度等。

特点

GitHub Typo Corpus 数据集的显著特点在于其规模庞大且多语言覆盖广泛，是目前为止最大的拼写错误数据集。数据集中的每个编辑对象都标注了是否为拼写错误及其概率，特别针对英语、简体中文和日语提供了详细的语言模型困惑度信息。此外，数据集的结构化设计使得研究者能够轻松提取和分析不同语言环境下的拼写错误模式，为自然语言处理领域的相关研究提供了丰富的资源。

使用方法

使用GitHub Typo Corpus数据集时，用户可以通过下载JSONL格式的数据文件，并利用工具如jq进行浏览和解析。每个提交对象包含了详细的编辑信息，用户可以根据需要提取特定语言或特定类型的拼写错误进行分析。数据集的结构化设计使得研究者能够轻松进行数据清洗、特征提取和模型训练。此外，数据集的源代码和收集工具也公开提供，用户可以根据需要自行扩展或修改数据收集流程，以适应特定的研究需求。

背景与挑战

背景概述

GitHub Typo Corpus是由Masato Hagiwara和Masato Mita创建的一个大规模多语言拼写和语法错误数据集，旨在推动自然语言处理（NLP）领域的发展。该数据集通过从GitHub上收集的超过35万次编辑和6500万字符的数据，涵盖了15种以上的语言，成为迄今为止最大的拼写错误数据集。其核心研究问题在于如何有效识别和纠正代码和文档中的拼写及语法错误，从而提升文本质量。该数据集的发布不仅为NLP领域的研究提供了丰富的资源，还为多语言文本处理技术的进步奠定了基础。

当前挑战

GitHub Typo Corpus在构建过程中面临多项挑战。首先，数据集的构建需要从GitHub上大量代码库中提取和分类拼写及语法错误，这一过程涉及复杂的文本处理和语言检测技术。其次，确保数据集的多语言覆盖和质量控制是一个重大挑战，尤其是在处理不同语言的语法结构和拼写规则时。此外，数据集的版权和使用政策也需严格遵守GitHub的规定，确保数据的合法性和可用性。这些挑战共同构成了该数据集在实际应用中的复杂性和技术难度。

常用场景

经典使用场景

GitHub Typo Corpus 数据集的经典使用场景主要集中在自然语言处理（NLP）领域，特别是在拼写错误和语法错误的检测与纠正任务中。该数据集通过收集和分析GitHub上的大量代码提交记录，提取了超过35万条编辑记录，涵盖了15种以上的语言。这些数据为研究人员提供了丰富的资源，用于训练和评估拼写检查器、语法校正器等自然语言处理模型。通过分析这些编辑记录，研究者能够深入理解不同语言中的常见错误模式，从而开发出更加精准和高效的错误检测与纠正工具。

衍生相关工作

基于GitHub Typo Corpus 数据集，研究者们开展了多项相关工作，推动了自然语言处理技术的发展。例如，有研究利用该数据集训练了多语言拼写检查模型，显著提升了模型在不同语言环境下的性能。此外，还有研究通过分析数据集中的错误模式，提出了新的错误检测和纠正算法，进一步提高了错误处理的准确性和效率。这些衍生工作不仅丰富了自然语言处理领域的研究内容，还为实际应用提供了强有力的技术支持。

数据集最近研究