github-typo-corpus
收藏Opencsg2024-06-04 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/MagicAI/github-typo-corpus
下载链接
链接失效反馈官方服务:
资源简介:
GitHub Typo Corpus: 大规模多语言拼写错误和语法错误数据集。这是一个用于研究和改进拼写错误和语法错误检测的多语言大规模数据集。
GitHub Typo Corpus: A large-scale multilingual dataset of spelling and grammatical errors. This is a large-scale multilingual dataset designed for researching and improving the detection of spelling and grammatical errors.
创建时间:
2024-06-04
搜集汇总
数据集介绍

背景与挑战
背景概述
GitHub Typo Corpus是一个大规模多语言拼写错误和语法错误数据集,包含超过350k编辑和65M字符,覆盖15种以上语言,适用于拼写和语法错误检测的研究。数据集以JSONL格式提供,包含详细的编辑信息和语言模型困惑度等数据。
以上内容由遇见数据集搜集并总结生成



