common_corpus_pre1939_Russsian
收藏Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/foss22/common_corpus_pre1939_Russsian
下载链接
链接失效反馈官方服务:
资源简介:
该数据集展示了19世纪及更早时期俄语OCR/HTR(光学字符识别/手写文本识别)的低质量示例,主要用于测试拼写检查器和文本校正器的性能。数据集语言为俄语(ru),当前版本存在质量问题,计划未来将发布经过校正的版本(common_corpus_pre1939_Russian)。数据集采用与原始PleIAs/common_corpus相同的许可证。该数据集的创建动机源于处理大型多语言数据集(如10+TB的Common Corpus 2.0)时按语言筛选的需求,虽然Common Corpus 2.0已添加语言列支持筛选,但处理整个数据集仍面临挑战。
创建时间:
2026-03-18



