five

foss22/common_corpus_pre1939_Russsian

收藏
Hugging Face2026-03-20 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/foss22/common_corpus_pre1939_Russsian
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru --- Демонстрация низкого качества OCR/HTR, поражающего обучающие датасеты на русском 19 века и ранее. Использовать для тестирования спеллчекеров и корректоров. TODO: common_corpus_pre1939_Russian -как результат коррекции, вместо нынешнего некачественного common_corpus_pre1939_Russsian Лицензия кау у исходного PleIAs/common_corpus Мотивация: https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd Feb 13, 2025 A language column was added in Common Corpus 2.0, so filtering on language is now possible. Thanks! It does however require processing the entire 10+ TB dataset. Having separate subsets or releases per language would be quite convenient.

语言: - 俄语 本数据集用于展示影响19世纪及更早俄语训练数据集的低质量光学字符识别(Optical Character Recognition, OCR)与手写文本识别(Handwritten Text Recognition, HTR)效果。 可用于拼写检查器与校正器的测试工作。 待办事项: common_corpus_pre1939_Russian — 作为校正后的结果,替代当前存在的低质量版本 common_corpus_pre1939_Russsian 本数据集的许可证与原始PleIAs/common_corpus数据集保持一致。 项目动机: https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd 2025年2月13日 《通用语料库2.0》已新增语言列,因此现在可基于语言进行筛选。感谢反馈!但这需要处理整个10TB以上的数据集。若能按语言提供独立的子数据集或发布版本,将极大提升使用便利性。
提供机构:
foss22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作