26个大写字母识别数据集
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26133.html
下载链接
链接失效反馈官方服务:
资源简介:
Data Set Information: The objective is to identify each of a large number of black-and-white rectangular pixel displays as one of the 26 capital letters in the English alphabet. The character images were based on 20 different fonts and each letter within these 20 fonts was randomly distorted to produce a file of 20,000 unique stimuli. Each stimulus was converted into 16 primitive numerical attributes (statistical moments and edge counts) which were then scaled to fit into a range of integer values from 0 through 15. We typically train on the first 16000 items and then use the resulting model to predict the letter category for the remaining 4000. See the article cited above for more details. Attribute Information: 1. lettr capital letter (26 values from A to Z) 2. x-box horizontal position of box (integer) 3. y-box vertical position of box (integer) 4. width width of box (integer) 5. high height of box (integer) 6. onpix total # on pixels (integer) 7. x-bar mean x of on pixels in box (integer) 8. y-bar mean y of on pixels in box (integer) 9. x2bar mean x variance (integer) 10. y2bar mean y variance (integer) 11. xybar mean x y correlation (integer) 12. x2ybr mean of x * x * y (integer) 13. xy2br mean of x * y * y (integer) 14. x-ege mean edge count left to right (integer) 15. xegvy correlation of x-ege with y (integer) 16. y-ege mean edge count bottom to top (integer) 17. yegvx correlation of y-ege with x (integer) Relevant Papers: P. W. Frey and D. J. Slate. "Letter Recognition Using Holland-style Adaptive Classifiers". (Machine Learning Vol 6 #2 March 91) [Web link] Papers That Cite This Data Set1: Jaakko Peltonen and Arto Klami and Samuel K Creator: David J. Slate Odesta Corporation; 1890 Maple Ave; Suite 115; Evanston, IL 60201 Donor: David J. Slate (dave '@' math.nwu.edu) (708) 491-3867
数据集信息:本数据集的任务为将大量黑白矩形像素显示的字符,分类至26个英文字母大写字母之一。该字符图像基于20种不同字体生成,且这20种字体中的每个字母均经过随机扭曲处理,最终得到包含20000个唯一样本的数据集文件。每个样本被转化为16个基础数值属性(统计矩与边缘计数),随后将这些属性缩放至0至15的整数取值范围内。通常我们会使用前16000个样本开展模型训练,再借助训练得到的模型对剩余4000个样本的字母类别进行预测。更多细节可参阅上文引用的论文。
属性信息:1. 大写英文字母(共A至Z共26个可选值)
2. x-box:包围盒水平位置(整数型)
3. y-box:包围盒垂直位置(整数型)
4. 宽度:包围盒宽度(整数型)
5. 高度:包围盒高度(整数型)
6. 总前景像素数:包围盒内总前景像素数(整数型)
7. x-bar:包围盒内前景像素的x坐标均值(整数型)
8. y-bar:包围盒内前景像素的y坐标均值(整数型)
9. x2bar:x坐标的方差均值(整数型)
10. y2bar:y坐标的方差均值(整数型)
11. xybar:x与y的相关性均值(整数型)
12. x2ybr:x²*y的均值(整数型)
13. xy2br:x*y²的均值(整数型)
14. x-ege:从左到右的边缘计数均值(整数型)
15. xegvy:x方向边缘计数与y的相关性(整数型)
16. y-ege:从下到上的边缘计数均值(整数型)
17. yegvx:y方向边缘计数与x的相关性(整数型)
相关论文:P. W. Frey与D. J. Slate,《采用基于Holland风格的自适应分类器进行字母识别》(发表于《机器学习》第6卷第2期,1991年3月)[网页链接]
引用本数据集的论文1:Jaakko Peltonen、Arto Klami与Samuel K
创建者:David J. Slate,Odesta公司;地址:1890 Maple Avenue,115号套房,埃文斯顿,伊利诺伊州60201
捐赠者:David J. Slate(电子邮箱:dave '@' math.nwu.edu);联系电话:(708) 491-3867
提供机构:
帕依提提
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含20,000个基于20种不同字体并经过随机扭曲的26个大写字母图像,每个图像转换为16个数值属性,用于字母识别任务。数据集通常分为16,000个训练样本和4,000个测试样本。
以上内容由遇见数据集搜集并总结生成



