five

GitHub Typo Corpus

收藏
github2019-12-03 更新2024-05-31 收录
下载链接:
https://github.com/lianNice/github-typo-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Typo Corpus是一个大规模的多语言数据集,包含超过35万个拼写和语法错误的修正,涵盖超过15种语言,是目前最大的拼写错误数据集。

The GitHub Typo Corpus is a large-scale multilingual dataset containing over 350,000 corrections for spelling and grammatical errors, covering more than 15 languages. It is currently the largest dataset of spelling errors.
创建时间:
2019-12-03
原始信息汇总

GitHub Typo Corpus 数据集概述

创建者: Masato Hagiwara 和 Masato Mita

数据集描述:

  • 类型: 大规模多语言拼写错误和语法错误数据集
  • 规模: 包含超过35万个编辑和6500万个字符,涵盖超过15种语言
  • 格式: JSONL格式,每行一个提交对象

数据集内容:

  • 提交对象结构:
    • repo: 仓库URL
    • commit: 提交哈希
    • message: 提交信息
    • edits: 编辑列表,每个编辑对象包含:
      • src: 编辑前的文本信息
      • tgt: 编辑后的文本信息
      • prob_typo: 编辑为拼写错误的概率
      • is_typo: 是否为拼写错误(当prob_typo > 0.5时为真)
      • srctgt 包含:
        • text: 文本内容
        • path: 文件路径
        • lang: 文本语言(自动检测)
        • ppl: 文本的困惑度

数据集下载:

使用建议:

  • 推荐使用工具如 jq 来浏览文件

版权与许可:

  • 数据集中的提交和文本遵循其所属仓库的版权和许可条款
  • 数据集的收集和发布遵循GitHub的可接受使用政策
搜集汇总
数据集介绍
main_image_url
构建方式
GitHub Typo Corpus 数据集的构建,是通过从GitHub上采集包含拼写错误和语法错误的代码编辑及其修正的历史记录。该数据集包含了超过35万个编辑和6500万个字符,跨越了15种以上的编程语言,是迄今为止最大的拼写错误数据集。数据集的构建过程中,利用了GitPython库来抓取仓库、提交和编辑信息,并利用NanigoNet工具自动检测文本语言。对于英语、简体中文和日语这三种数据量最大的语言,还额外提供了拼写错误的概率和文本的困惑度(perplexity)。
使用方法
使用GitHub Typo Corpus数据集时,用户可以下载JSONL格式的数据文件,并利用如jq之类的工具进行数据浏览和分析。用户需要具备Python3环境以及GitPython库,以运行源代码目录中的数据采集脚本。此外,数据集的使用需遵循GitHub的使用政策和版权规定,用户在使用过程中应确保不违反相关条款,并在发现任何版权问题时与数据集发布者联系。
背景与挑战
背景概述
GitHub Typo Corpus是一个由Masato Hagiwara和Masato Mita创建的大型多语言数据集,旨在收集从GitHub中提取的拼写错误和语法错误及其更正。该数据集的创建时间为2019年,包含了超过35万个编辑和6500万个字符,覆盖了15种以上的语言。作为迄今为止最大的拼写错误数据集,它为自然语言处理(NLP)领域提供了宝贵的资源,特别是在拼写检查和语法校正方面。该数据集的构建对于促进NLP技术的发展具有重要意义,并对相关研究领域产生了显著影响。
当前挑战
在构建GitHub Typo Corpus数据集的过程中,研究人员面临了多方面的挑战。首先,如何高效地从GitHub上爬取大量的代码库和提交记录是一个技术难题。其次,准确地识别和标注拼写错误和语法错误,同时区分这些错误与实质性内容更改的编辑,需要复杂的算法和语言模型。此外,数据集的多语言特性要求研究者在处理不同语言时,考虑到各自的语法和拼写规则。最后,确保遵守GitHub的使用政策和版权规定,合法地收集和使用数据,也是数据集构建过程中的一个重要挑战。
常用场景
经典使用场景
GitHub Typo Corpus作为自然语言处理领域的重要资源,其经典使用场景主要集中于对拼写错误和语法错误的检测与纠正。该数据集为研究者提供了一个丰富的语料库,使得他们能够训练和测试机器学习模型,以自动识别并修正代码注释和文档中的语言错误,从而提升软件文档的质量和易读性。
解决学术问题
该数据集解决了自然语言处理中拼写和语法错误检测的学术难题,通过大规模的实例学习,有助于改进现有拼写检查工具的准确性。它为语言模型训练提供了宝贵的错误标注数据,使得模型能够在不同语境中准确识别错误并进行纠正,对提升自然语言理解的精细度具有重要意义。
实际应用
在实际应用中,GitHub Typo Corpus可被用于优化软件开发过程中的代码审查工具,辅助开发人员快速识别和修复文档中的错误。此外,它也被广泛应用于教育领域,作为教学辅助材料,帮助学生和开发者学习正确使用编程语言和文档编写。
数据集最近研究
最新研究方向
GitHub Typo Corpus作为自然语言处理领域中一个重要的资源,其庞大的规模和多样化的语言覆盖为研究拼写错误和语法错误的识别与纠正提供了丰富的素材。近期,研究者们基于此数据集,正深入探索机器学习模型在代码编写过程中的错误检测与自动更正能力,特别是在多语言环境下的应用。此外,该数据集对于理解程序员在编写和修订代码时的行为模式,以及提升代码质量自动化工具的效能,具有显著的影响和意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作