common_corpus_pre1939_Russsian

Hugging Face2026-03-19 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/foss22/common_corpus_pre1939_Russsian

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集展示了19世纪及更早时期俄语OCR/HTR(光学字符识别/手写文本识别)的低质量示例，主要用于测试拼写检查器和文本校正器的性能。数据集语言为俄语(ru)，当前版本存在质量问题，计划未来将发布经过校正的版本(common_corpus_pre1939_Russian)。数据集采用与原始PleIAs/common_corpus相同的许可证。该数据集的创建动机源于处理大型多语言数据集(如10+TB的Common Corpus 2.0)时按语言筛选的需求，虽然Common Corpus 2.0已添加语言列支持筛选，但处理整个数据集仍面临挑战。

创建时间：

2026-03-18

5,000+

优质数据集

54 个

任务类型

进入经典数据集