GitHub Typo Corpus
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/GitHub_Typo_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
你是那种在写代码的时候经常打错字的人吗?还是您是通过“修复错字”提交来修复它们的人?不管怎样,谢谢你——你为 NLP 领域的最新技术做出了贡献。 GitHub Typo Corpus 是一个大规模的拼写错误和语法错误以及从 GitHub 收集的更正的数据集。它包含超过 350k 的编辑和超过 15 种语言的 65M 字符,使其成为迄今为止最大的拼写错误数据集。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
GitHub Typo Corpus是一个从GitHub收集的大规模多语言拼写和语法错误数据集,包含超过35万次编辑和15种语言的6500万字符,是目前最大的此类数据集。该数据集由Octanove Labs等机构于2019年发布,旨在支持自然语言处理技术的研究。
以上内容由遇见数据集搜集并总结生成



