GitHub Typo Corpus

github2019-12-03 更新2024-05-31 收录

下载链接：

https://github.com/lianNice/github-typo-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

GitHub Typo Corpus是一个大规模的多语言数据集，包含超过35万个拼写和语法错误的修正，涵盖超过15种语言，是目前最大的拼写错误数据集。

The GitHub Typo Corpus is a large-scale multilingual dataset containing over 350,000 corrections for spelling and grammatical errors, covering more than 15 languages. It is currently the largest dataset of spelling errors.

创建时间：

2019-12-03

原始信息汇总

GitHub Typo Corpus 数据集概述

创建者: Masato Hagiwara 和 Masato Mita

数据集描述:

类型: 大规模多语言拼写错误和语法错误数据集
规模: 包含超过35万个编辑和6500万个字符，涵盖超过15种语言
格式: JSONL格式，每行一个提交对象

数据集内容:

提交对象结构:
- repo: 仓库URL
- commit: 提交哈希
- message: 提交信息
- edits: 编辑列表，每个编辑对象包含:
  - src: 编辑前的文本信息
  - tgt: 编辑后的文本信息
  - prob_typo: 编辑为拼写错误的概率
  - is_typo: 是否为拼写错误（当prob_typo > 0.5时为真）
  - src 和 tgt 包含:
    - text: 文本内容
    - path: 文件路径
    - lang: 文本语言（自动检测）
    - ppl: 文本的困惑度

数据集下载:

链接: GitHub Typo Corpus (ver. 1.0.0)

使用建议:

推荐使用工具如 jq 来浏览文件

版权与许可:

数据集中的提交和文本遵循其所属仓库的版权和许可条款
数据集的收集和发布遵循GitHub的可接受使用政策

搜集汇总

数据集介绍

构建方式

GitHub Typo Corpus 数据集的构建，是通过从GitHub上采集包含拼写错误和语法错误的代码编辑及其修正的历史记录。该数据集包含了超过35万个编辑和6500万个字符，跨越了15种以上的编程语言，是迄今为止最大的拼写错误数据集。数据集的构建过程中，利用了GitPython库来抓取仓库、提交和编辑信息，并利用NanigoNet工具自动检测文本语言。对于英语、简体中文和日语这三种数据量最大的语言，还额外提供了拼写错误的概率和文本的困惑度（perplexity）。

使用方法

使用GitHub Typo Corpus数据集时，用户可以下载JSONL格式的数据文件，并利用如jq之类的工具进行数据浏览和分析。用户需要具备Python3环境以及GitPython库，以运行源代码目录中的数据采集脚本。此外，数据集的使用需遵循GitHub的使用政策和版权规定，用户在使用过程中应确保不违反相关条款，并在发现任何版权问题时与数据集发布者联系。

背景与挑战

背景概述

GitHub Typo Corpus是一个由Masato Hagiwara和Masato Mita创建的大型多语言数据集，旨在收集从GitHub中提取的拼写错误和语法错误及其更正。该数据集的创建时间为2019年，包含了超过35万个编辑和6500万个字符，覆盖了15种以上的语言。作为迄今为止最大的拼写错误数据集，它为自然语言处理（NLP）领域提供了宝贵的资源，特别是在拼写检查和语法校正方面。该数据集的构建对于促进NLP技术的发展具有重要意义，并对相关研究领域产生了显著影响。

当前挑战

在构建GitHub Typo Corpus数据集的过程中，研究人员面临了多方面的挑战。首先，如何高效地从GitHub上爬取大量的代码库和提交记录是一个技术难题。其次，准确地识别和标注拼写错误和语法错误，同时区分这些错误与实质性内容更改的编辑，需要复杂的算法和语言模型。此外，数据集的多语言特性要求研究者在处理不同语言时，考虑到各自的语法和拼写规则。最后，确保遵守GitHub的使用政策和版权规定，合法地收集和使用数据，也是数据集构建过程中的一个重要挑战。

常用场景

经典使用场景

GitHub Typo Corpus作为自然语言处理领域的重要资源，其经典使用场景主要集中于对拼写错误和语法错误的检测与纠正。该数据集为研究者提供了一个丰富的语料库，使得他们能够训练和测试机器学习模型，以自动识别并修正代码注释和文档中的语言错误，从而提升软件文档的质量和易读性。

解决学术问题

该数据集解决了自然语言处理中拼写和语法错误检测的学术难题，通过大规模的实例学习，有助于改进现有拼写检查工具的准确性。它为语言模型训练提供了宝贵的错误标注数据，使得模型能够在不同语境中准确识别错误并进行纠正，对提升自然语言理解的精细度具有重要意义。

实际应用

在实际应用中，GitHub Typo Corpus可被用于优化软件开发过程中的代码审查工具，辅助开发人员快速识别和修复文档中的错误。此外，它也被广泛应用于教育领域，作为教学辅助材料，帮助学生和开发者学习正确使用编程语言和文档编写。

数据集最近研究