five

github-typo-corpus

收藏
Opencsg2024-06-04 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/MagicAI/github-typo-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Typo Corpus: 大规模多语言拼写错误和语法错误数据集。这是一个用于研究和改进拼写错误和语法错误检测的多语言大规模数据集。

GitHub Typo Corpus: A large-scale multilingual dataset of spelling and grammatical errors. This is a large-scale multilingual dataset designed for researching and improving the detection of spelling and grammatical errors.
创建时间:
2024-06-04
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GitHub Typo Corpus是一个大规模多语言拼写错误和语法错误数据集,包含超过350k编辑和65M字符,覆盖15种以上语言,适用于拼写和语法错误检测的研究。数据集以JSONL格式提供,包含详细的编辑信息和语言模型困惑度等数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作