five

中英文ocr数据集

收藏
魔搭社区2026-05-16 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/lzf010102/cheinese_and_englist_ocr_dataset_2000K
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含200万张用于文字识别的图像样本,其中英文和中文各100万张。数据集来源:英文样本:DonkeySmall/OCR-English-Printed-12中文样本:来自https://github.com/YCG09/chinese_ocr,只包含Chinese_dataset; 100万训练数据

This dataset contains 2 million image samples for optical character recognition (OCR), including 1 million samples for English and 1 million samples for Chinese, respectively. Regarding data sources: the English samples are sourced from DonkeySmall/OCR-English-Printed-12; the Chinese samples are exclusively taken from the Chinese_dataset subset of the repository hosted at https://github.com/YCG09/chinese_ocr. This dataset consists of 1 million training samples.
提供机构:
maas
创建时间:
2025-10-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含200万个高质量印刷文本识别图像样本,其中中英文各100万。它适用于计算机视觉任务,如文本检测和识别,数据来源于两个开源项目并经过精心预处理。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务