foss22/common_corpus_pre1939_Russsian
收藏Hugging Face2026-03-20 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/foss22/common_corpus_pre1939_Russsian
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
---
Демонстрация низкого качества OCR/HTR, поражающего обучающие датасеты на русском 19 века и ранее.
Использовать для тестирования спеллчекеров и корректоров.
TODO:
common_corpus_pre1939_Russian -как результат коррекции, вместо нынешнего некачественного
common_corpus_pre1939_Russsian
Лицензия кау у исходного PleIAs/common_corpus
Мотивация:
https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd
Feb 13, 2025
A language column was added in Common Corpus 2.0, so filtering on language is now possible. Thanks!
It does however require processing the entire 10+ TB dataset. Having separate subsets or releases per language would be quite convenient.
语言:
- 俄语
本数据集用于展示影响19世纪及更早俄语训练数据集的低质量光学字符识别(Optical Character Recognition, OCR)与手写文本识别(Handwritten Text Recognition, HTR)效果。
可用于拼写检查器与校正器的测试工作。
待办事项:
common_corpus_pre1939_Russian — 作为校正后的结果,替代当前存在的低质量版本
common_corpus_pre1939_Russsian
本数据集的许可证与原始PleIAs/common_corpus数据集保持一致。
项目动机:
https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd
2025年2月13日
《通用语料库2.0》已新增语言列,因此现在可基于语言进行筛选。感谢反馈!但这需要处理整个10TB以上的数据集。若能按语言提供独立的子数据集或发布版本,将极大提升使用便利性。
提供机构:
foss22



