five

newspaper-ocr-gold

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/NealCaren/newspaper-ocr-gold
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为 'newspaper-ocr-gold',是一个用于历史报纸扫描的黄金标准OCR训练数据集。数据集包含13,371条经过Qwen3-VL 235B验证的行级转录文本,以及从100页报纸中提取的行裁剪PNG图像,覆盖了73种独特标题,时间跨度为1840年代至2010年代。数据按页面划分为训练集(80%)、验证集(10%)和测试集(10%),具体分布为:训练集11,044行,验证集1,111行,测试集1,216行。数据集的主要特征包括图像、转录文本、分辨率、比例、宽度、高度、页面ID、行ID、置信度和标志。数据质量方面,49%为干净数据,47%为部分数据(行在单词边界处截断),3%为退化数据,平均置信度为0.95。数据集的使用示例包括下载和提取图像及元数据文件。
创建时间:
2026-03-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作