five

hershey dataset

收藏
github2023-01-28 更新2024-05-31 收录
下载链接:
https://github.com/prajwaltr93/hershey_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
用于机器学习应用的Hershey单笔画字符数据集,以SVG格式提供。数据集包含已提取的字体,可通过压缩的font_svgs zip文件获取。

The Hershey single-stroke character dataset for machine learning applications is provided in SVG format. The dataset includes extracted fonts, which can be accessed through the compressed font_svgs zip file.
创建时间:
2020-06-11
原始信息汇总

Hershey 数据集概述

数据集描述

  • 数据集名称:hershey 数据集
  • 数据格式:SVG格式,已压缩至font_svgs.zip文件
  • 数据内容:从Hershey字体定义中提取的SVG字体文件

数据集结构

  • 本地数据集:通过./create_localdataset.py脚本创建
  • 全局数据集:通过./create_globaldataset.py脚本创建

数据集提取步骤

  1. 运行./extract_hershey_font.py提取字体为SVG格式
  2. 使用./remove_invalid_svg.py移除无效的SVG文件
  3. 创建全局数据集目录并运行./create_globaldataset.py
  4. 创建本地数据集目录并运行./create_localdataset.py

数据集依赖

  • matplotlib
  • opencv
  • numpy

数据集文件

  • ./extract_hershey_font.py:读取hershey.jhf并输出SVG格式的字体文件
  • ./hershey.jhf:包含所有字符的原始文件
  • ./visualise_dataset.py:可视化pickled数据集
  • ./create_globaldataset.py:创建全局数据集
  • ./create_localdataset.py:创建本地数据集
  • ./create_metadata.py:创建包含训练、测试、验证样本值的元数据文件

数据集状态

  • 已创建全局数据集
  • 已创建本地数据集
  • 已创建全局数据集的pickled形式
  • 已上传实际数据集
搜集汇总
数据集介绍
main_image_url
构建方式
Hershey数据集通过提取Hershey字体定义中的SVG格式字符构建而成。首先,利用Python脚本从原始的hershey.jhf文件中读取字符数据,并将其转换为SVG格式。随后,通过一系列脚本处理,包括移除无效的SVG文件、创建全局和局部数据集,并生成相应的元数据文件。最终,数据集以压缩的pickle格式存储,便于后续使用。
特点
Hershey数据集的特点在于其字符的单一笔画特性,尽管为了视觉美观,部分笔画存在重叠现象。数据集包含全局和局部两种形式,全局数据集适用于整体字符的识别与生成,而局部数据集则更注重字符的细节部分。此外,数据集还提供了元数据文件,便于用户根据实验需求调整训练和验证样本的数量。
使用方法
使用Hershey数据集时,用户可以通过提供的Python脚本提取SVG格式的字符,并生成全局或局部数据集。数据集以pickle格式存储,用户可以直接加载并使用。此外,数据集还提供了可视化脚本,便于用户查看和调试数据。对于需要进一步实验的用户,元数据文件可以帮助调整训练和验证的样本数量,优化模型性能。
背景与挑战
背景概述
Hershey数据集源于对Hershey字体的研究,该字体由Dr. Hershey开发,最初用于工程绘图和科学可视化。该数据集的主要目标是将Hershey字体从二进制格式转换为SVG格式,以便于机器学习和计算机视觉任务中的使用。数据集的研究背景可以追溯到Brown大学的Atsunobu Kotani和Stefanie Tellex的研究工作,他们探索了如何教机器人绘制字符。Hershey数据集的出现为字符识别和生成任务提供了新的数据源,尤其是在单笔画字体的研究中具有重要价值。然而,由于Hershey字体的字符集较小,且存在冗余笔画问题,数据集的应用受到一定限制。
当前挑战
Hershey数据集面临的主要挑战包括字符集规模较小和数据质量问题。尽管通过数据增强技术可以扩展样本数量,但模型仍容易过拟合。此外,Hershey字体虽然为单笔画字体,但其笔画重叠现象严重,影响了训练数据的质量。这些挑战限制了数据集在复杂任务中的应用,如高精度字符生成或识别。构建过程中,研究人员还面临从二进制格式提取SVG数据的复杂性,以及如何有效处理无效SVG文件的技术难题。这些问题促使研究人员转向更具挑战性的Kanjivg字符数据集,以解决Hershey数据集在多样性和数据质量上的不足。
常用场景
经典使用场景
Hershey数据集在计算机视觉和机器学习领域中被广泛用于字符识别和字体生成的研究。该数据集包含了从Hershey字体定义中提取的SVG格式字符,适用于训练模型以识别和生成单一笔画的字体。由于其简洁的字符结构和易于处理的数据格式,Hershey数据集常被用于探索字体生成算法的性能和优化。
衍生相关工作
Hershey数据集衍生了许多相关的研究工作,尤其是在字体生成和字符识别领域。例如,基于该数据集的研究成果被应用于开发更高效的字体生成算法,以及改进手写字符识别的准确性。此外,Hershey数据集还启发了对多语言字符识别的研究,特别是在处理具有复杂笔画结构的字符时,如日文汉字。这些研究工作不仅推动了字体生成技术的发展,还为字符识别领域的进一步探索提供了宝贵的数据支持。
数据集最近研究
最新研究方向
近年来,Hershey数据集在计算机视觉和机器人绘图领域的研究中逐渐受到关注。该数据集最初由Dr. Hershey开发,包含了一系列单笔画字体字符的SVG格式数据,适用于机器人绘图和字体生成任务。然而,由于字符集较小且存在冗余笔画的问题,研究者在训练模型时容易遇到过拟合现象。为此,研究者逐渐转向使用Kanjivg字符集,因其包含更复杂的贝塞尔曲线,能够更好地模拟真实书写场景。当前的研究热点集中在如何通过数据增强技术扩展Hershey数据集的应用范围,以及如何结合深度学习模型优化机器人绘图精度。此外,Hershey数据集在跨文化字符生成和多语言字体设计中的应用也备受关注,尤其是在结合日语字符集的研究中展现了潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作