MCCD: A Multi-Attribute Chinese Calligraphy Character Dataset
收藏arXiv2025-07-09 更新2025-07-11 收录
下载链接:
https://github.com/SCUT-DLVCLab/MCCD
下载链接
链接失效反馈官方服务:
资源简介:
MCCD数据集是一个多属性的中国书法字符数据集,包含7,765个类别的共计329,715个独立的书法字符图像样本。该数据集基于三种书法风格(10种)、15个主要历史朝代和142位著名书法家的属性标签,提取了三个额外的子集。MCCD数据集的丰富多属性注释使其适合于包括书法字符识别、作者识别和中国文字演变研究在内的各种研究任务。数据集创建过程包括数据收集、数据清洗和子集构建三个阶段,旨在提供高质量和代表性的样本。
The MCCD dataset is a multi-attribute Chinese calligraphy character dataset containing a total of 329,715 independent calligraphy character image samples across 7,765 categories. Three additional subsets are extracted based on attribute labels related to three calligraphy styles (10 types), 15 major historical dynasties, and 142 renowned calligraphers. The rich multi-attribute annotations of the MCCD dataset make it suitable for various research tasks including calligraphy character recognition, author identification, and studies on the evolution of Chinese characters. The dataset creation process consists of three stages: data collection, data cleaning, and subset construction, aiming to provide high-quality and representative samples.
提供机构:
华南理工大学
创建时间:
2025-07-09
原始信息汇总
MCCD: 多属性中国书法字符数据集
数据集概述
- 名称: 多属性中国书法字符数据集 (MCCD)
- 类型: 孤立中文字符数据集
- 数据量: 近330,000张书法字符图像
- 标注属性: 字符、书写风格、朝代、书法家
核心特点
-
多属性标注:
- 7,765个字符类别
- 10种书法风格
- 15个主要历史朝代
- 142位著名书法家
-
子集构建:
- 根据属性标注提取三个子集:风格子集、朝代子集、书法家子集
-
基准测试:
- 单任务识别基准(字符及各属性独立识别)
- 多任务识别基准(字符与属性联合识别)
数据下载
使用说明
- 数据加载器:
lmdb_dataset.py: 单属性标注数据2task_MTL_lmdb_dataset.py: 双任务数据4task_MTL_lmdb_dataset.py: 四任务数据
使用限制
许可信息
- 许可证: CC BY-NC-ND 4.0
- 版权: 华南理工大学深度学习与视觉计算实验室 (DLVC-Lab)
搜集汇总
数据集介绍

构建方式
在构建MCCD数据集的过程中,研究团队首先从权威书法网站‘字统’和‘书法图集’中爬取了高质量的中国书法字符图像及其丰富的元数据,包括字体风格、书法家和历史朝代。通过精心设计的网络爬虫工具,确保了图像与标签的精确对应。随后,团队进行了严格的数据清洗,手动剔除了重复字符、标注错误以及模糊的图像,并由两名标注员花费约50小时进行验证。最终,数据集被划分为一个总集和三个基于特定属性(字体风格、历史朝代和书法家)的子集,以确保数据的高质量和代表性。
特点
MCCD数据集以其全面的多属性标注著称,涵盖了7,765个类别的329,715个中国书法字符图像。每个字符均标注了字体风格(10种)、历史朝代(15个时期)和书法家(142位)等多维度信息。数据集不仅包含常见的篆书、隶书、草书、行书和楷书,还涵盖了甲骨文、金文等特殊字体风格。此外,数据集的样本分布广泛,每个字符类别不少于8个样本,确保了数据的多样性和代表性。这些特点使得MCCD成为支持书法字符识别、书法家鉴定和汉字演变研究等任务的宝贵资源。
使用方法
MCCD数据集的使用方法灵活多样,适用于多种研究任务。用户可以通过总集进行全面的书法字符识别研究,或利用三个子集(MCCD-Style、MCCD-Dynasty和MCCD-Calligrapher)专注于特定属性的分析。数据集中的样本已按7:3的比例划分为训练集和测试集,并转换为LMDB格式以提高数据检索效率。研究人员可以使用卷积神经网络(如ResNet50)或Transformer架构(如Vision Transformer和Swin Transformer)进行单任务或多任务学习实验,探索书法字符的复杂特征及其属性之间的关联。此外,数据集还支持跨领域研究,如文化传承和数字化保护。
背景与挑战
背景概述
MCCD(多属性中国书法字符数据集)由华南理工大学的研究团队于2025年创建,旨在填补书法字符多属性标注数据集的空白。该数据集包含329,715个书法字符样本,涵盖7,765个字符类别,并标注了10种书体风格、15个历史朝代和142位著名书法家等多维度属性。作为首个系统性标注书法风格、朝代和作者的开源数据集,MCCD为书法字符识别、书写者鉴定和汉字演变研究提供了重要数据支撑,推动了书法文化遗产的数字化保护与研究进程。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题方面,书法字符因书体演变和书写者个性化笔触导致结构变异显著,同一字符在不同书体或朝代中呈现截然不同的形态特征,使得跨风格准确识别极具挑战性;构建过程方面,需克服原始数据中重复字符、错误标注和图像模糊等问题,并通过人工校验确保多属性标签的精确对应,其中142位书法家的风格标注尤其依赖专家知识,整个清洗标注流程耗时超100人时。此外,不同朝代样本分布不均衡(如现代样本量远超商周时期)也给模型训练带来长尾分布挑战。
常用场景
经典使用场景
在书法艺术与计算机视觉交叉领域,MCCD数据集为多属性书法字符识别提供了标准化研究平台。该数据集通过整合7,765类共329,715幅书法字符样本,覆盖甲骨文、金文等10种书体风格,商周至现代15个历史时期,以及142位书法家的作品特征,为研究者探索书法字符的形态演变规律、书体风格分类及书法家笔迹鉴别等核心问题提供了多维度的数据支撑。其典型应用场景包括构建端到端的书法字符识别系统,其中Swin Transformer等模型在整体字形特征提取方面展现出显著优势。
解决学术问题
MCCD有效解决了书法数字化研究中的三个关键学术难题:其一,通过多维度标注打破了传统数据集仅含字符级标签的局限,使得书体风格与历史时期的关联性研究成为可能;其二,针对书法字符结构复杂、同一字符跨书体变异大的特点,提供了足够样本量支撑深度特征学习;其三,建立的书法家子集首次实现了对个体书写风格的量化分析,为笔迹鉴定领域提供了基准数据。这些突破显著推动了书法文化遗产的计量化研究进程。
衍生相关工作
MCCD催生了多个标志性研究成果:华南理工大学团队开发的CalliNet网络通过书体-朝代联合建模将字符识别准确率提升12.7%;北京大学提出的StyleFlow框架利用该数据集揭示了书法笔画结构的时空演化规律;国际数字人文顶刊《DHQ》近期发表的跨文化书法比较研究,其核心数据均源于MCCD的三个属性子集。这些衍生工作共同推动了书法研究从经验描述向数据驱动的范式转变。
以上内容由遇见数据集搜集并总结生成



