CCSE-Kai 和 CCSE-HW
收藏arXiv2022-10-25 更新2024-06-21 收录
下载链接:
https://github.com/lizhaoliu-Lec/CCSE
下载链接
链接失效反馈官方服务:
资源简介:
本研究提出了首个公开可用的中国汉字笔画提取(CCSE)基准,包含两个新的大规模数据集:楷体CCSE(CCSE-Kai)和手写CCSE(CCSE-HW)。这些数据集旨在通过覆盖大量的汉字和笔画多样性,利用深度模型如CNN解决笔画提取任务。数据集不仅有助于笔画提取模型的开发,还能支持下游的字体生成和手写美学评估任务。
This study presents the first publicly available Chinese Character Stroke Extraction (CCSE) benchmark, which includes two new large-scale datasets: Kai-style CCSE (CCSE-Kai) and handwritten CCSE (CCSE-HW). These datasets are designed to address the stroke extraction task using deep models such as CNNs by covering a vast range of Chinese characters and diverse stroke patterns. The datasets not only facilitate the development of stroke extraction models, but also support downstream tasks including font generation and handwritten aesthetic assessment.
提供机构:
华南理工大学
创建时间:
2022-10-25
搜集汇总
数据集介绍

构建方式
CCSE-Kai 和 CCSE-HW 数据集的构建旨在解决中文汉字笔画提取的难题。研究者从两个维度入手:字符级多样性和笔画级多样性。CCSE-Kai 数据集通过开源项目 Make Me A Hanzi 收集了 9,523 个独特的楷体汉字图像,并利用 OpenCV 生成笔画实例级别的标注。CCSE-HW 数据集则收集了 7,600 个手写汉字图像,并进行了人工标注,以弥补 CCSE-Kai 数据集在笔画级多样性方面的不足。两个数据集均提供了丰富的字符结构和笔画样式,为笔画提取模型的训练提供了良好的基础。
特点
CCSE-Kai 和 CCSE-HW 数据集具有以下特点:1) 规模庞大:CCSE-Kai 包含超过 1M 个笔画实例,CCSE-HW 包含约 7.6K 个图像和 56.7K 个笔画实例;2) 实例级标注:与现有数据集提供的类别级标签不同,CCSE-Kai 和 CCSE-HW 提供了每个笔画的实例级掩码,包含详细的空間和形状信息;3) 多样性丰富:CCSE-Kai 涵盖了大部分汉字,满足了字符级多样性的要求,而 CCSE-HW 则通过手写汉字图像提高了笔画级多样性。
使用方法
使用 CCSE-Kai 和 CCSE-HW 数据集进行笔画提取模型的训练,可以按照以下步骤进行:1) 数据准备:将数据集分为训练集、验证集和测试集;2) 模型选择:选择合适的实例分割模型,如 Mask R-CNN 或 Cascade R-CNN;3) 模型训练:使用训练集对模型进行训练,并利用验证集进行模型调优;4) 模型评估:使用测试集评估模型的性能,并与其他方法进行比较;5) 特征迁移:将训练好的模型用于下游任务,如字体生成或手写美观度评估。
背景与挑战
背景概述
汉字笔画的提取是汉字识别和生成等应用的基础,然而现有的笔画提取方法往往依赖于手工规则和领域知识,缺乏大规模训练数据。此外,没有标准化的基准数据集来进行不同笔画提取方法之间的公平比较,这严重阻碍了汉字笔画理解和相关任务的发展。为了解决这些问题,Lizhao Liu等人于2022年提出了首个公开可用的汉字笔画提取(CCSE)基准,包含两个新的大规模数据集:楷体CCSE(CCSE-Kai)和手写CCSE(CCSE-HW)。这两个数据集涵盖了大量的汉字图像和手写汉字图像,为笔画提取任务提供了丰富的字符级和笔画级多样性。通过利用深度模型如CNNs的表示能力,研究者们将笔画提取问题转化为笔画实例分割问题,并使用提出的基准数据集来训练笔画实例分割模型,从而在笔画提取任务上取得了显著的进展。
当前挑战
CCSE-Kai和CCSE-HW数据集在解决笔画提取任务和构建过程中面临着一些挑战。首先,笔画提取任务本身就是一个复杂的任务,因为汉字结构复杂,笔画之间存在复杂的关系。其次,由于缺乏大规模数据集,现有的笔画提取方法往往依赖于手工规则,缺乏泛化能力。此外,如何有效地评估笔画提取算法仍然是一个未解决的问题。最后,尽管CCSE-Kai和CCSE-HW数据集提供了丰富的字符和笔画级多样性,但仍然存在一些内在的困难,例如笔画类别不平衡问题、笔画形状的类别不平衡问题等。这些挑战需要进一步的研究来解决。
常用场景
经典使用场景
CCSE-Kai 和 CCSE-HW 数据集是针对汉字笔划提取任务而构建的,其经典使用场景是将汉字图像中的笔划分解成单独的笔划。通过对大规模数据集的训练,研究者可以利用深度学习模型如CNNs的表示能力来解决笔划提取任务。该数据集提供了字符级别和笔划级别的多样性,使得模型能够有效地从复杂的汉字结构和不同的笔划风格中进行提取。
衍生相关工作
CCSE-Kai 和 CCSE-HW 数据集的提出为汉字笔划提取任务的研究提供了新的方向。基于该数据集,研究者可以探索更有效的笔划提取模型和算法。此外,该数据集还可以用于研究汉字笔划的特征表示和特征提取方法,为汉字相关应用提供更深入的理解和知识。此外,该数据集还可以用于研究汉字笔划的特征表示和特征提取方法,为汉字相关应用提供更深入的理解和知识。
数据集最近研究
最新研究方向
CCSE-Kai 和 CCSE-HW 数据集的提出,标志着中文汉字笔画提取领域的重要进展。该数据集不仅规模庞大,而且涵盖了字符级和笔画级的多样性,为深度学习模型提供了丰富的训练资源。最新的研究表明,将笔画提取问题转化为笔画实例分割问题,可以有效地利用现有的实例分割模型和评估指标,从而提高笔画提取的准确性和效率。此外,基于这些数据集训练的模型在下游任务,如字体生成和手写美观评估方面,也表现出优异的性能。这些研究成果为中文汉字笔画提取领域提供了新的研究方向,并有望推动相关技术的发展和应用。
相关研究论文
- 1Instance Segmentation for Chinese Character Stroke Extraction, Datasets and Benchmarks华南理工大学 · 2022年
以上内容由遇见数据集搜集并总结生成



