Chinese-Character-Stroke-Sequence-Dataset|汉字识别数据集|笔画分析数据集

github2024-04-12 更新2024-05-31 收录

汉字识别

笔画分析

下载链接：

https://github.com/Ex-voda/Chinese-Character-Stroke-Sequence-Dataset

下载链接

链接失效反馈

资源简介：

包含笔画序列信息的汉字数据集，整合了Liu.等提出的CCES数据集和Arphic Technology Co., Ltd.提出的汉字笔画数据集。数据集包含9523个汉字的标注信息，所有的图片都是1024*1024的二值图。

A Chinese character dataset containing stroke sequence information, integrating the CCES dataset proposed by Liu et al. and the Chinese character stroke dataset proposed by Arphic Technology Co., Ltd. The dataset includes annotation information for 9,523 Chinese characters, with all images being 1024*1024 binary images.

创建时间：

2023-12-08

原始信息汇总

汉字笔画序列的图片数据集

数据集来源

整合了Liu.等提出的CCES数据集。
整合了Arphic Technology Co., Ltd.提出的汉字笔画数据集。

数据集说明

包含9523个汉字的标注信息。
所有图片为1024*1024的二值图。
数据生成脚本最终生成9523个npz文件，每个npz文件是一个压缩的三维矩阵，每个0维上的切片代表一个笔画，按笔画顺序排列。
整合后的标注信息存储在fort_graphics.json中。
借助makemeahanzi的曲线数据与CCES的标注数据对齐，生成笔画序列图。

数据集特点

在线文件更小，离线文件分辨率更高。
每个切片矩阵的非零值是该笔画的标签值。

AI搜集汇总

数据集介绍

构建方式

本数据集的构建基于对两个重要数据源的整合与优化。首先，整合了Liu等人提出的CCES数据集，该数据集对汉字笔画进行了详细的25类标注。其次，引入了Arphic Technology Co., Ltd.的makemeahanzi项目，该项目提供了精确的汉字笔画绘制信息。通过将makemeahanzi的曲线数据与CCES的标注数据（fort_annotation.json）对齐，数据集在本地生成对应的笔画序列图。这种整合不仅保留了CCES的标注信息，还利用了makemeahanzi的高分辨率曲线数据，使得生成的图片具有更高的分辨率和更小的在线文件大小。最终，数据集生成了9523个npz文件，每个文件包含一个汉字的所有笔画信息，按笔画顺序排列，形成完整汉字。

特点

该数据集的一个显著特点是其高分辨率和精确的笔画信息。所有生成的图片均为1024*1024的二值图，确保了图像的清晰度和细节。此外，数据集中的每个npz文件都是一个压缩的三维矩阵，每个0维上的切片代表一个笔画，按顺序排列，便于研究者按需提取和分析。每个切片的非零值对应笔画的标签值，这种结构化的数据格式极大地方便了深度学习和模式识别等领域的研究。数据集的另一个特点是其整合了多个数据源，确保了数据的多样性和全面性，为汉字笔画研究提供了丰富的资源。

使用方法

使用本数据集需要一定的技术准备。首先，用户需安装必要的Python库，包括opencv-python、svgwrite和cairosvg。对于Windows用户，还需下载并安装GTK-3运行时环境，并确保其正确配置。完成环境设置后，用户可以通过运行`python run.py`命令来生成数据。生成的数据以npz文件格式存储，每个文件包含一个汉字的所有笔画信息。用户可以利用这些文件进行进一步的分析和研究，如深度学习模型的训练或汉字笔画的结构分析。数据集的结构化设计使得数据提取和处理变得高效且直观，适合多种研究场景。

背景与挑战

背景概述

汉字作为中华文化的重要载体，其笔画序列的研究在汉字识别、字体生成及书法艺术等领域具有深远意义。Chinese-Character-Stroke-Sequence-Dataset由Liu等人提出的CCES数据集与Arphic Technology Co., Ltd.的汉字笔画数据集整合而成，旨在提供一个包含笔画序列信息的汉字数据集。该数据集不仅继承了CCES数据集的25个笔画类别标注，还引入了makemeahanzi项目的曲线数据，通过本地生成高分辨率的笔画序列图，极大地丰富了数据集的信息量。该数据集包含9523个汉字的标注信息，每个汉字以1024*1024的二值图形式呈现，为汉字笔画序列的研究提供了宝贵的资源。

当前挑战

尽管Chinese-Character-Stroke-Sequence-Dataset在汉字笔画序列研究中具有重要价值，但其构建过程中仍面临诸多挑战。首先，整合不同来源的数据集需要精确对齐笔画信息与标注数据，确保数据的准确性和一致性。其次，生成高分辨率的笔画序列图对计算资源和算法效率提出了较高要求，尤其是在处理大量数据时。此外，数据集的标注复杂性也是一个挑战，如何确保每个笔画的标签值准确无误，以及如何在不同研究应用中保持数据的有效性，都是需要解决的问题。

常用场景

经典使用场景

在汉字研究领域，Chinese-Character-Stroke-Sequence-Dataset 数据集的经典使用场景主要体现在汉字笔画的自动识别与序列化分析。研究者可以利用该数据集中的高分辨率二值图和详细的笔画标签，开发算法以自动识别和排序汉字的笔画，这对于汉字输入法、字体设计以及汉字教学等应用具有重要意义。

实际应用

在实际应用中，Chinese-Character-Stroke-Sequence-Dataset 数据集被广泛应用于汉字输入法、字体设计、书法教学等领域。例如，在智能输入法中，该数据集可以帮助提高笔画识别的准确性；在字体设计中，设计师可以利用笔画序列信息生成新的字体；在书法教学中，教师可以利用该数据集进行笔画顺序的演示和教学。

衍生相关工作

基于Chinese-Character-Stroke-Sequence-Dataset，研究者们开发了多种汉字处理工具和算法。例如，有研究者利用该数据集开发了自动生成汉字笔画顺序的教学工具，还有研究者基于此数据集提出了新的汉字识别算法，显著提高了识别精度。此外，该数据集还激发了关于汉字美学和结构分析的跨学科研究，推动了汉字文化的数字化保护和传承。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录