five

AntiplagiatCompany/HWR200

收藏
Hugging Face2024-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AntiplagiatCompany/HWR200
下载链接
链接失效反馈
官方服务:
资源简介:
HWR200是一个包含俄语手写文本图像的新开放访问数据集,由200位不同笔迹的作者创建,并在不同环境下拍摄。数据集总大小为44G,包含30030张文本图像。每位作者的手写文本以三种不同的方式拍摄:扫描、光线差和光线好。不同作者可能写相同的文本,部分文本是其他文本的重复。数据集的注释示例展示了原始文本、重复文本和fpr文本的结构。

HWR200是一个包含俄语手写文本图像的新开放访问数据集,由200位不同笔迹的作者创建,并在不同环境下拍摄。数据集总大小为44G,包含30030张文本图像。每位作者的手写文本以三种不同的方式拍摄:扫描、光线差和光线好。不同作者可能写相同的文本,部分文本是其他文本的重复。数据集的注释示例展示了原始文本、重复文本和fpr文本的结构。
提供机构:
AntiplagiatCompany
原始信息汇总

数据集概述

数据集名称

HWR200

数据集描述

  • 语言: 俄语
  • 标签: OCR, HTR, 手写文本识别, 近重复检测, 重用检测
  • 美观名称: HWR200
  • 大小分类: 10K<n<100K

数据集详情

  • 总大小: 44G
  • 图像总数: 30030
  • 作者数量: 200
  • 文本拍摄方式: 扫描, 光线不足, 光线良好
  • 文本特点: 不同作者可能写相同的文本, 部分文本为“重用”文本,包含其他文本的句子副本

下载指南

  1. 安装 huggingface_hubgit-lfs
  2. 使用 git clone 命令从指定链接下载数据集。

注释示例

  • 原始文本: 包含句子、单词计数和全文信息。
  • 重用文本: 包含重用部分的详细信息,如原始文本文件名和交集分数。
  • FPR文本: 包含句子、单词计数和全文信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作