five

GitHub Typo Corpus

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/GitHub_Typo_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
你是那种在写代码的时候经常打错字的人吗?还是您是通过“修复错字”提交来修复它们的人?不管怎样,谢谢你——你为 NLP 领域的最新技术做出了贡献。 GitHub Typo Corpus 是一个大规模的拼写错误和语法错误以及从 GitHub 收集的更正的数据集。它包含超过 350k 的编辑和超过 15 种语言的 65M 字符,使其成为迄今为止最大的拼写错误数据集。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作