MCCD
收藏github2025-07-12 更新2025-07-13 收录
下载链接:
https://github.com/SCUT-DLVCLab/MCCD
下载链接
链接失效反馈官方服务:
资源简介:
一个带有多种属性注释的中国书法字符数据集,包括字符及其对应的字体风格、朝代和书法家属性信息。即将发布…
A Chinese calligraphy character dataset annotated with multiple attributes, which includes the characters and their corresponding attribute information such as font style, dynasty, and calligrapher. To be released soon.
创建时间:
2025-07-12
原始信息汇总
MCCD: 多属性中国书法字符数据集
数据集概述
- 名称: 多属性中国书法字符数据集 (MCCD)
- 内容: 包含近330,000个书法字符图像,具有丰富的标注信息,包括字符、书写风格、朝代和书法家。
- 特点:
- 提供7,765个字符类别标签。
- 包含三个额外子集,分别标注了10种书法风格、15个主要历史朝代和142位著名书法家。
数据集结构
- 主要标注:
- 字符类别: 7,765类
- 书法风格: 10种
- 历史朝代: 15个
- 书法家: 142位
- 数据格式: PNG / lmdb
下载信息
使用说明
- 数据加载: 提供针对单属性、双属性和四属性标注的lmdb数据读取文件。
- 使用限制: 仅限非商业研究用途,需提交申请并获得批准。
许可与版权
- 许可证: CC BY-NC-ND 4.0
- 版权: 华南理工大学深度学习与视觉计算实验室 (DLVC-Lab)
联系方式
- 联系人: Yixin Zhao
- 邮箱: yixin_zhao01@126.com
搜集汇总
数据集介绍

构建方式
在书法艺术与计算机视觉交叉领域,MCCD数据集通过系统化采集近33万幅独立汉字书法图像构建而成。研究团队采用多维度标注体系,对每个字符的字体风格(10种)、历史朝代(15个)、书法家(142位)及字符类别(7,765类)进行精细化标注,并基于属性特征提取出四个专项子集,形成兼顾整体性与任务针对性的数据架构。所有图像均以PNG和lmdb双格式存储,确保数据处理的灵活性。
特点
作为当前最全面的多属性书法字符数据集,MCCD的突出特点体现在其层次化标注体系与高密度文化信息。数据集不仅覆盖篆、隶、楷等主要书体演变脉络,更精确映射了从商周到近现代的历史传承轨迹。每个字符图像均附带四重语义标签,支持单属性识别、多任务联合学习等研究场景。特别设计的属性子集进一步强化了特定研究方向的数据支撑,如朝代子集可为书法断代研究提供量化依据。
使用方法
研究者可通过GitHub仓库获取标准化的数据加载工具,其中data_loader模块包含针对单属性、双属性和四属性标注的专用读取接口。使用前需签署非商业研究协议,经授权后获取解压密码。数据集支持两种应用模式:直接调用预构建的lmdb文件实现高效读取,或基于PNG原始图像进行定制化处理。为保障学术规范性,团队要求使用者提供相关领域研究成果证明,并严格遵守CC BY-NC-ND 4.0许可协议。
背景与挑战
背景概述
MCCD(多属性中国书法字符数据集)由华南理工大学深度学习与视觉计算实验室(DLVC-Lab)于2025年发布,旨在推动书法字符识别与多属性分析的研究。该数据集收录了近33万幅书法字符图像,标注了字符、书体风格、朝代及书法家等多维度属性,涵盖了7,765个字符类别、10种书体风格、15个历史朝代及142位著名书法家。作为首个大规模多属性书法字符数据集,MCCD为OCR、手写体验证、文档图像处理等领域提供了重要的基准数据,其多任务标注体系尤其有助于探索字符识别与历史文化属性的关联性研究。
当前挑战
构建MCCD面临的核心挑战包括两方面:在领域问题层面,书法字符因书体风格多样、历史演变复杂及个人笔迹差异显著,导致传统单属性识别模型难以准确捕捉多维特征关联;在数据集构建层面,需解决古籍图像质量不均、跨朝代字符形态变异标注一致性,以及书法家作品稀缺导致的类别不平衡问题。此外,多属性联合标注需设计严格的专家校验机制,确保风格、朝代等主观性标签的客观性。
常用场景
经典使用场景
在书法艺术与计算机视觉的交叉领域,MCCD数据集为研究者提供了一个多属性标注的孤立汉字数据集,涵盖了字符、书写风格、朝代和书法家等多维度信息。该数据集最经典的使用场景在于支持多任务识别研究,例如同时识别字符及其书写风格或所属朝代。通过提供丰富的标注信息,MCCD使得研究者能够深入探索书法字符的多属性关联性,为书法风格分类、朝代鉴定等任务提供了可靠的数据基础。
解决学术问题
MCCD数据集解决了书法字符识别领域中多属性联合分析的学术难题。传统研究往往局限于单一字符识别,而MCCD通过引入书写风格、朝代和书法家等多维度标注,使得研究者能够系统性地探索书法艺术的历史演变与个体风格差异。该数据集不仅填补了多属性书法字符数据资源的空白,还为跨朝代书法风格比较、书法家身份鉴定等研究提供了新的可能性,推动了书法计算分析领域的发展。
衍生相关工作
围绕MCCD数据集已衍生出多项经典研究工作。在计算机视觉领域,研究者开发了基于多任务学习的书法字符识别模型,同时预测字符及其属性信息。数字人文领域则利用该数据集构建了书法风格演化图谱,可视化呈现不同朝代的风格变迁。此外,部分学者结合MCCD与生成对抗网络,探索了特定书法家风格的数字化再现,为书法艺术的创新传承开辟了新途径。
以上内容由遇见数据集搜集并总结生成



