moaminsharifi/fa-wiki-spell-checker
收藏Hugging Face2023-11-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/moaminsharifi/fa-wiki-spell-checker
下载链接
链接失效反馈官方服务:
资源简介:
波斯/法尔西维基百科语料库是一个专门为拼写检查任务设计的开源数据集。该数据集基于波斯维基百科,包含了各种主题的文章,涵盖了广泛的领域和类型。为了便于拼写检查任务,语料库提供了单词的正确版本及其对应的拼写错误版本,从而能够训练和评估拼写检查模型,以准确检测和纠正拼写错误。
提供机构:
moaminsharifi
原始信息汇总
波斯语/波斯语维基百科拼写检查语料库
概述
波斯语维基百科语料库是一个开源数据集,专门设计用于拼写检查任务。它可以在huggingface上访问和使用,任何对改进拼写检查算法感兴趣的人都可以使用。
公式
| 可能性 | 百分比 |
|---|---|
| 正常句子 | >=2% |
| 操作 | <=98% |
每次使用随机函数为每行(在这种情况下是维基百科文章)创建一个新的随机数。我们将保留>=2%的数据不变,以教导模型不要在文本上“过度反应”。
请考虑98/100 * 1/100,即0.0098%
| 每个函数的操作可能性 | 百分比 |
|---|---|
delete_word 函数 |
99.999% (97.99% 总体) |
delete_characters 函数 |
99.999% (97.99% 总体) |
insert_characters 函数 |
99.999% (97.99% 总体) |
replace_characters 函数 |
99.999% (97.99% 总体) |
swap_characters_case 函数 |
99.999% (97.99% 总体) |
目的
波斯语维基百科语料库的主要目标是作为一个全面可靠的资源,用于训练和评估拼写检查模型。通过利用维基百科的大量文本数据,该数据集提供了多样化的语言模式和现实世界的拼写错误。这使得研究人员和开发者能够创建更有效的拼写检查算法,能够处理各种文本。
数据集详情
波斯语维基百科语料库是从波斯语(波斯语)维基百科中提取的文本文档集合。它包括来自各种主题的文章,涵盖广泛的领域和类型。该数据集经过精心策划和预处理,以确保高质量和一致性。
为了便于拼写检查任务,语料库提供了单词的正确版本及其对应的拼写错误版本。这使得拼写检查器的训练和评估能够准确检测和纠正拼写错误。



