Traditional Chinese Handwriting Dataset

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/AI-FREE-Team/Traditional-Chinese-Handwriting-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

原始資料集基於 Tegaki 開源套件下產出，總計 13,065 個不同的中文字，每一個字體平均有 50 個樣本。

The original dataset was generated based on the Tegaki open-source toolkit, comprising a total of 13,065 distinct Chinese characters, with an average of 50 samples per character.

创建时间：

2020-03-27

原始信息汇总

数据集概述

数据集名称

繁體中文手寫資料集

数据集描述

原始数据集：基于Tegaki开源套件产出，总计13,065个不同的中文字，每个字体平均有50个样本。
数据集大小：
- 完整数据集：包含684,677个图像，图像大小为300x300像素。
- 常用字数据集：包含250,712个图像，图像大小为50x50像素。

数据集更新记录

2020.09.03：发布完整数据集（13,065个字符；图像大小：300x300像素；总计684,677个图像）。
2020.04.20：上传第一个数据集（4,803个字符；图像大小：50x50像素；总计250,712个图像）。

数据样本

展示完整数据集的样本资料夹结构和手写“自由”字样的示例。

使用方法

完整数据集：通过Git克隆并解压缩，解压后资料夹名为cleaned_data。
常用字数据集：通过Git克隆并解压缩，解压后资料夹名为cleaned_data(50_50)。

问题与发现

常用字数据集因压缩至50x50像素，部分图片档案笔画不清楚、出现重叠现象。

手写中文辨識

使用繁體中文手寫字集实现卷积神经网络手写识别。

授权

本数据集适用<a rel="license" href="https://creativecommons.org/licenses/by-nc-sa/4.0/">Attribution-NonCommercial-ShareAlike 4.0 International</a>授权。

引用

@misc{AI.FREE2020, author = {Po-Chuan Chen}, title = {Traditional Chinese Handwriting Dataset}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/AI-FREE-Team/Traditional-Chinese-Handwriting-Dataset}}, }

资料来源

原资料集来源：https://scidm.nchc.org.tw/dataset/stusteecs_chinese_mnist

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Tegaki开源套件，精心收集了13,065个不同的繁体中文字符，每个字符平均包含50个样本。这一庞大的数据集旨在为机器学习和神经网络提供丰富的训练材料，以实现对手写繁体中文的准确识别。通过系统的数据采集和处理，确保了每个字符的高质量图像，图像尺寸为300x300像素，总计684,677张图片，为深度学习模型提供了坚实的基础。

特点

此数据集的显著特点在于其广泛的字符覆盖和高质量的图像数据。涵盖了13,065个繁体中文字符，每个字符均有50个样本，确保了数据的多样性和代表性。图像尺寸为300x300像素，保证了字符细节的清晰度，适用于高精度的手写识别任务。此外，数据集的构建过程中采用了开源工具Tegaki，确保了数据的可重复性和透明性。

使用方法

使用该数据集时，用户可以通过Git命令行工具克隆相应的GitHub仓库，获取完整的数据集。对于完整数据集，用户需将多个压缩文件合并并解压，解压后的数据存储在名为cleaned_data的文件夹中。对于常用字数据集，用户直接克隆仓库并解压data文件夹内的压缩文件即可。此外，数据集提供了Colab和本地操作的代码示例，方便用户进行数据部署和模型训练。

背景与挑战

背景概述

繁體中文手寫資料集（Traditional Chinese Handwriting Dataset）由AI-FREE團隊於2020年創建，旨在探索機器學習和神經網路對繁體中文手寫字符的識別能力。該資料集基於Tegaki開源套件，包含13,065個不同的繁體中文字符，每個字符平均有50個樣本，總計684,677張圖像。此資料集的創建不僅填補了繁體中文手寫識別領域的空白，也為相關研究提供了重要的數據支持，推動了中文自然語言處理技術的發展。

当前挑战

繁體中文手寫資料集在構建和應用過程中面臨多重挑戰。首先，由於繁體中文字符的複雜性和多樣性，確保每個字符的樣本質量和一致性是一大難題。其次，資料集在壓縮至50x50像素時，部分圖像出現筆畫不清和重疊現象，影響了模型的訓練效果。此外，資料集在部署過程中，特別是在Colab環境下，曾遇到中文字符檔名亂碼的問題，雖已解決，但仍需持續優化以提升數據處理的穩定性和效率。

常用场景

经典使用场景

在人工智能与机器学习领域，繁体中文手写数据集被广泛应用于手写汉字识别任务。该数据集包含13,065个不同的繁体中文字符，每个字符平均有50个样本，为研究者提供了丰富的训练和测试资源。通过使用卷积神经网络（CNN）等深度学习模型，研究者能够训练出高效的手写汉字识别系统，从而推动中文自然语言处理技术的发展。

衍生相关工作

繁体中文手写数据集的发布催生了一系列相关研究和工作。例如，基于该数据集的卷积神经网络模型被用于开发手写汉字识别系统，并在多个学术会议和期刊上发表了相关论文。此外，该数据集还被应用于Coursera上的TensorFlow课程，推动了在线教育中机器学习技术的普及。这些衍生工作不仅扩展了数据集的应用范围，还促进了中文手写识别技术的进一步发展。

数据集最近研究