Chinese-Character-Stroke-Sequence-Dataset

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/Ex-voda/Chinese-Character-Stroke-Sequence-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含笔画序列信息的汉字数据集，整合了Liu.等提出的CCES数据集和Arphic Technology Co., Ltd.提出的汉字笔画数据集。数据集包含9523个汉字的标注信息，所有的图片都是1024*1024的二值图。

A Chinese character dataset containing stroke sequence information, integrating the CCES dataset proposed by Liu et al. and the Chinese character stroke dataset proposed by Arphic Technology Co., Ltd. The dataset includes annotation information for 9,523 Chinese characters, with all images being 1024*1024 binary images.

创建时间：

2023-12-08

原始信息汇总

汉字笔画序列的图片数据集

数据集来源

整合了Liu.等提出的CCES数据集。
整合了Arphic Technology Co., Ltd.提出的汉字笔画数据集。

数据集说明

包含9523个汉字的标注信息。
所有图片为1024*1024的二值图。
数据生成脚本最终生成9523个npz文件，每个npz文件是一个压缩的三维矩阵，每个0维上的切片代表一个笔画，按笔画顺序排列。
整合后的标注信息存储在fort_graphics.json中。
借助makemeahanzi的曲线数据与CCES的标注数据对齐，生成笔画序列图。

数据集特点

在线文件更小，离线文件分辨率更高。
每个切片矩阵的非零值是该笔画的标签值。

搜集汇总

数据集介绍

构建方式

本数据集的构建基于对两个重要数据源的整合与优化。首先，整合了Liu等人提出的CCES数据集，该数据集对汉字笔画进行了详细的25类标注。其次，引入了Arphic Technology Co., Ltd.的makemeahanzi项目，该项目提供了精确的汉字笔画绘制信息。通过将makemeahanzi的曲线数据与CCES的标注数据（fort_annotation.json）对齐，数据集在本地生成对应的笔画序列图。这种整合不仅保留了CCES的标注信息，还利用了makemeahanzi的高分辨率曲线数据，使得生成的图片具有更高的分辨率和更小的在线文件大小。最终，数据集生成了9523个npz文件，每个文件包含一个汉字的所有笔画信息，按笔画顺序排列，形成完整汉字。

特点

该数据集的一个显著特点是其高分辨率和精确的笔画信息。所有生成的图片均为1024*1024的二值图，确保了图像的清晰度和细节。此外，数据集中的每个npz文件都是一个压缩的三维矩阵，每个0维上的切片代表一个笔画，按顺序排列，便于研究者按需提取和分析。每个切片的非零值对应笔画的标签值，这种结构化的数据格式极大地方便了深度学习和模式识别等领域的研究。数据集的另一个特点是其整合了多个数据源，确保了数据的多样性和全面性，为汉字笔画研究提供了丰富的资源。

使用方法

使用本数据集需要一定的技术准备。首先，用户需安装必要的Python库，包括opencv-python、svgwrite和cairosvg。对于Windows用户，还需下载并安装GTK-3运行时环境，并确保其正确配置。完成环境设置后，用户可以通过运行`python run.py`命令来生成数据。生成的数据以npz文件格式存储，每个文件包含一个汉字的所有笔画信息。用户可以利用这些文件进行进一步的分析和研究，如深度学习模型的训练或汉字笔画的结构分析。数据集的结构化设计使得数据提取和处理变得高效且直观，适合多种研究场景。

背景与挑战

背景概述

汉字作为中华文化的重要载体，其笔画序列的研究在汉字识别、字体生成及书法艺术等领域具有深远意义。Chinese-Character-Stroke-Sequence-Dataset由Liu等人提出的CCES数据集与Arphic Technology Co., Ltd.的汉字笔画数据集整合而成，旨在提供一个包含笔画序列信息的汉字数据集。该数据集不仅继承了CCES数据集的25个笔画类别标注，还引入了makemeahanzi项目的曲线数据，通过本地生成高分辨率的笔画序列图，极大地丰富了数据集的信息量。该数据集包含9523个汉字的标注信息，每个汉字以1024*1024的二值图形式呈现，为汉字笔画序列的研究提供了宝贵的资源。

当前挑战

尽管Chinese-Character-Stroke-Sequence-Dataset在汉字笔画序列研究中具有重要价值，但其构建过程中仍面临诸多挑战。首先，整合不同来源的数据集需要精确对齐笔画信息与标注数据，确保数据的准确性和一致性。其次，生成高分辨率的笔画序列图对计算资源和算法效率提出了较高要求，尤其是在处理大量数据时。此外，数据集的标注复杂性也是一个挑战，如何确保每个笔画的标签值准确无误，以及如何在不同研究应用中保持数据的有效性，都是需要解决的问题。

常用场景

经典使用场景

在汉字研究领域，Chinese-Character-Stroke-Sequence-Dataset 数据集的经典使用场景主要体现在汉字笔画的自动识别与序列化分析。研究者可以利用该数据集中的高分辨率二值图和详细的笔画标签，开发算法以自动识别和排序汉字的笔画，这对于汉字输入法、字体设计以及汉字教学等应用具有重要意义。

实际应用

在实际应用中，Chinese-Character-Stroke-Sequence-Dataset 数据集被广泛应用于汉字输入法、字体设计、书法教学等领域。例如，在智能输入法中，该数据集可以帮助提高笔画识别的准确性；在字体设计中，设计师可以利用笔画序列信息生成新的字体；在书法教学中，教师可以利用该数据集进行笔画顺序的演示和教学。

衍生相关工作

基于Chinese-Character-Stroke-Sequence-Dataset，研究者们开发了多种汉字处理工具和算法。例如，有研究者利用该数据集开发了自动生成汉字笔画顺序的教学工具，还有研究者基于此数据集提出了新的汉字识别算法，显著提高了识别精度。此外，该数据集还激发了关于汉字美学和结构分析的跨学科研究，推动了汉字文化的数字化保护和传承。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集