pszemraj/OCR-quality-classification

Name: pszemraj/OCR-quality-classification
Creator: pszemraj
Published: 2024-05-09 16:37:36
License: 暂无描述

Hugging Face2024-05-09 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/pszemraj/OCR-quality-classification

下载链接

链接失效反馈

官方服务：

资源简介：

OCR-quality-classification数据集是从PleIAs/Post-OCR-Correction的英文子集转换而来的文本分类数据集。该数据集包含文本和标签两个特征，分为训练集、验证集和测试集三个部分。训练集包含60140个样本，验证集和测试集各包含1253个样本。数据集的总下载大小为2081669999字节，总数据集大小为3062991523字节。该数据集的任务类别为文本分类，语言为英语，源数据集为PleIAs/Post-OCR-Correction，大小类别为10K<n<100K。

提供机构：

pszemraj

原始信息汇总

数据集概述

数据集信息

特征:
- text: 数据类型为字符串
- label: 数据类型为字符串
分割:
- train: 字节数为 2940464039.0961914，样本数为 60140
- validation: 字节数为 61263741.95190435，样本数为 1253
- test: 字节数为 61263741.95190435，样本数为 1253
下载大小: 2081669999 字节
数据集大小: 3062991523 字节

配置

配置名称: default
数据文件:
- train: 路径为 data/train-*
- validation: 路径为 data/validation-*
- test: 路径为 data/test-*

许可证

许可证: cc0-1.0

任务类别

任务类别: 文本分类

语言

语言: 英语

来源数据集

来源数据集: PleIAs/Post-OCR-Correction

大小类别

大小类别: 10K<n<100K

训练集的token统计

token统计:
- 总数: 60140
- 平均值: 14034.661540
- 标准差: 5305.808434
- 最小值: 3.000000
- 25%分位数: 10280.750000
- 50%分位数: 12978.000000
- 75%分位数: 16705.000000
- 最大值: 43323.000000
总token数: 844.04 M tokens

5,000+

优质数据集

54 个

任务类型

进入经典数据集