five

GitHub Typo Corpus

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/GitHub_Typo_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
你是那种在写代码的时候经常打错字的人吗?还是您是通过“修复错字”提交来修复它们的人?不管怎样,谢谢你——你为 NLP 领域的最新技术做出了贡献。 GitHub Typo Corpus 是一个大规模的拼写错误和语法错误以及从 GitHub 收集的更正的数据集。它包含超过 350k 的编辑和超过 15 种语言的 65M 字符,使其成为迄今为止最大的拼写错误数据集。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GitHub Typo Corpus是一个从GitHub收集的大规模多语言拼写和语法错误数据集,包含超过35万次编辑和15种语言的6500万字符,是目前最大的此类数据集。该数据集由Octanove Labs等机构于2019年发布,旨在支持自然语言处理技术的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作