AntiplagiatCompany/HWR200
收藏Hugging Face2024-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AntiplagiatCompany/HWR200
下载链接
链接失效反馈官方服务:
资源简介:
HWR200是一个包含俄语手写文本图像的新开放访问数据集,由200位不同笔迹的作者创建,并在不同环境下拍摄。数据集总大小为44G,包含30030张文本图像。每位作者的手写文本以三种不同的方式拍摄:扫描、光线差和光线好。不同作者可能写相同的文本,部分文本是其他文本的重复。数据集的注释示例展示了原始文本、重复文本和fpr文本的结构。
HWR200是一个包含俄语手写文本图像的新开放访问数据集,由200位不同笔迹的作者创建,并在不同环境下拍摄。数据集总大小为44G,包含30030张文本图像。每位作者的手写文本以三种不同的方式拍摄:扫描、光线差和光线好。不同作者可能写相同的文本,部分文本是其他文本的重复。数据集的注释示例展示了原始文本、重复文本和fpr文本的结构。
提供机构:
AntiplagiatCompany
原始信息汇总
数据集概述
数据集名称
HWR200
数据集描述
- 语言: 俄语
- 标签: OCR, HTR, 手写文本识别, 近重复检测, 重用检测
- 美观名称: HWR200
- 大小分类: 10K<n<100K
数据集详情
- 总大小: 44G
- 图像总数: 30030
- 作者数量: 200
- 文本拍摄方式: 扫描, 光线不足, 光线良好
- 文本特点: 不同作者可能写相同的文本, 部分文本为“重用”文本,包含其他文本的句子副本
下载指南
- 安装
huggingface_hub和git-lfs。 - 使用
git clone命令从指定链接下载数据集。
注释示例
- 原始文本: 包含句子、单词计数和全文信息。
- 重用文本: 包含重用部分的详细信息,如原始文本文件名和交集分数。
- FPR文本: 包含句子、单词计数和全文信息。



