foss22/common_corpus_pre1939_Russsian

Name: foss22/common_corpus_pre1939_Russsian
Creator: foss22
Published: 2026-03-20 11:18:18
License: 暂无描述

Hugging Face2026-03-20 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/foss22/common_corpus_pre1939_Russsian

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ru --- Демонстрация низкого качества OCR/HTR, поражающего обучающие датасеты на русском 19 века и ранее. Использовать для тестирования спеллчекеров и корректоров. TODO: common_corpus_pre1939_Russian -как результат коррекции, вместо нынешнего некачественного common_corpus_pre1939_Russsian Лицензия кау у исходного PleIAs/common_corpus Мотивация: https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd Feb 13, 2025 A language column was added in Common Corpus 2.0, so filtering on language is now possible. Thanks! It does however require processing the entire 10+ TB dataset. Having separate subsets or releases per language would be quite convenient.

语言： - 俄语本数据集用于展示影响19世纪及更早俄语训练数据集的低质量光学字符识别（Optical Character Recognition, OCR）与手写文本识别（Handwritten Text Recognition, HTR）效果。可用于拼写检查器与校正器的测试工作。待办事项： common_corpus_pre1939_Russian — 作为校正后的结果，替代当前存在的低质量版本 common_corpus_pre1939_Russsian 本数据集的许可证与原始PleIAs/common_corpus数据集保持一致。项目动机： https://huggingface.co/datasets/PleIAs/common_corpus/discussions/2#67adb8aba035b45ce76b33dd 2025年2月13日《通用语料库2.0》已新增语言列，因此现在可基于语言进行筛选。感谢反馈！但这需要处理整个10TB以上的数据集。若能按语言提供独立的子数据集或发布版本，将极大提升使用便利性。

提供机构：

foss22

5,000+

优质数据集

54 个

任务类型

进入经典数据集