pszemraj/OCR-quality-classification
收藏Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/OCR-quality-classification
下载链接
链接失效反馈官方服务:
资源简介:
OCR-quality-classification数据集是从PleIAs/Post-OCR-Correction的英文子集转换而来的文本分类数据集。该数据集包含文本和标签两个特征,分为训练集、验证集和测试集三个部分。训练集包含60140个样本,验证集和测试集各包含1253个样本。数据集的总下载大小为2081669999字节,总数据集大小为3062991523字节。该数据集的任务类别为文本分类,语言为英语,源数据集为PleIAs/Post-OCR-Correction,大小类别为10K<n<100K。
OCR-quality-classification数据集是从PleIAs/Post-OCR-Correction的英文子集转换而来的文本分类数据集。该数据集包含文本和标签两个特征,分为训练集、验证集和测试集三个部分。训练集包含60140个样本,验证集和测试集各包含1253个样本。数据集的总下载大小为2081669999字节,总数据集大小为3062991523字节。该数据集的任务类别为文本分类,语言为英语,源数据集为PleIAs/Post-OCR-Correction,大小类别为10K<n<100K。
提供机构:
pszemraj
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 数据类型为字符串label: 数据类型为字符串
- 分割:
train: 字节数为 2940464039.0961914,样本数为 60140validation: 字节数为 61263741.95190435,样本数为 1253test: 字节数为 61263741.95190435,样本数为 1253
- 下载大小: 2081669999 字节
- 数据集大小: 3062991523 字节
配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*validation: 路径为data/validation-*test: 路径为data/test-*
许可证
- 许可证: cc0-1.0
任务类别
- 任务类别: 文本分类
语言
- 语言: 英语
来源数据集
- 来源数据集: PleIAs/Post-OCR-Correction
大小类别
- 大小类别: 10K<n<100K
训练集的token统计
- token统计:
- 总数: 60140
- 平均值: 14034.661540
- 标准差: 5305.808434
- 最小值: 3.000000
- 25%分位数: 10280.750000
- 50%分位数: 12978.000000
- 75%分位数: 16705.000000
- 最大值: 43323.000000
- 总token数: 844.04 M tokens



