UNICALLI
收藏arXiv2025-10-16 更新2025-10-17 收录
下载链接:
Code and data can be viewed in this
下载链接
链接失效反馈官方服务:
资源简介:
UNICALLI数据集是一个包含超过8000个数字化作品的中文书法数据集,其中超过4000个作品被密集标注。数据集涵盖了93位经典书法家的作品,包括怀素、唐寅、颜真卿、欧阳询、米芾、赵佶、张即之和王羲之等。这些作品被标注为不同的书体类型(楷书、行书、草书),每个字符都有边界框和现代字符转录。该数据集旨在促进页面级分析和生成的相关研究。
The UNICALLI dataset is a Chinese calligraphy dataset containing over 8,000 digitized works, among which more than 4,000 works are densely annotated. It covers the creations of 93 classic Chinese calligraphers, including Huaisu, Tang Yin, Yan Zhenqing, Ouyang Xun, Mi Fu, Zhao Ji, Zhang Jizhi, Wang Xizhi, and others. These works are categorized into different script types: regular script, running script, and cursive script. Each character is equipped with bounding boxes and modern character transcriptions. This dataset aims to facilitate research related to page-level analysis and generation.
提供机构:
香港科技大学(广州分校), 中国地质大学(北京), 厦门大学, 香港科技大学
创建时间:
2025-10-16
搜集汇总
数据集介绍
构建方式
在数字人文与计算机视觉交叉领域,构建高质量数据集是推动书法计算研究的关键。UNICALLI数据集的构建采用了系统化的多源数据整合策略,其核心是从超过8,000幅数字化古典书法作品中精选素材,涵盖93位书法家的真迹。其中超过4,000幅作品进行了密集标注,涉及数十万个字符,标注信息包括书体类型、单字边界框及现代汉字转录。构建过程融合了真实历史图像与合成数据:真实图像经过去噪、二值化等预处理,并依据垂直文本列进行随机裁剪以增强多样性;同时,利用楷、行、草等书体的标准字体文件,从古典与现代文学语料中渲染生成大规模合成数据,以扩充字符集并提升模型的结构泛化能力。这种真实与合成数据相结合的构建方式,旨在应对书法数据长尾分布与标注稀缺的挑战。
特点
UNICALLI数据集在书法计算领域展现出若干显著特征。其规模宏大且标注精细,不仅提供图像数据,更包含了书体、字符位置与转录内容等多维度结构化信息,为列级别的生成与识别任务提供了坚实基础。数据集涵盖了楷书、行书、草书、隶书、篆书等主要书体,风格跨度从王羲之的飘逸到颜真卿的雄浑,具有高度的艺术多样性与历史代表性。尤为突出的是,数据集中包含了大量连贯的列级样本,而非孤立字符,这使得模型能够学习书法作品中至关重要的字间连笔、空间节奏与整体布局等美学要素。数据集还通过合成数据扩展了字符覆盖范围,并通过预处理保留了历史真迹的笔墨质感与岁月痕迹,兼具艺术真实性与计算可用性。
使用方法
UNICALLI数据集主要用于训练与评估统一的书法生成与识别模型。在使用时,数据被处理为包含目标书法图像、标准字体内容图像及边界框掩码的三元组输入。模型基于多模态扩散变换器架构,通过非对称加噪机制在生成与识别双任务间切换学习:生成任务以干净内容为条件重建书法图像与布局;识别任务则从书法图像中推断内容。数据集支持混合训练范式,可同时利用标注数据、未标注数据及合成数据,其中条件丢弃技术被用于解耦风格与字形信息,防止对长尾风格的过拟合。评估时,生成质量可通过视觉对比、量化指标(如L1、FID)及人工评估进行衡量;识别性能则在预留测试集上计算字符级准确率。该数据集及其配套框架还可迁移至甲骨文、埃及象形文字等其他古文字系统的研究中。
背景与挑战
背景概述
UNICALLI数据集由香港科技大学(广州)、中国地质大学(北京)及厦门大学等机构的研究团队于2026年构建,旨在推动中国书法计算生成与识别的前沿研究。该数据集聚焦于解决传统书法数字化中的核心难题,即如何在保持单字结构准确性的同时,实现整列书法的艺术性生成,包括连贯的笔触连接与合理的空间布局。通过收录超过8000幅涵盖93位历代书法家作品的数字化图像,其中4000余幅进行了密集的字符级标注,该数据集为书法风格建模与列级合成提供了关键的数据基础,显著提升了生成模型在艺术连贯性与结构保真度方面的性能,并对甲骨文、埃及象形文字等古文字系统的数字化研究产生了示范性影响。
当前挑战
UNICALLI数据集致力于解决书法列级生成与识别的双重挑战。在领域问题层面,现有方法常陷入两难:专注于单字生成的模型虽能保证字形正确,却忽略了列级作品的整体美学,如笔势连绵与节奏韵律;而尝试整列合成的通用模型又往往牺牲了书法的结构准确性,导致字形失真或风格错乱。在构建过程中,研究团队面临数据稀缺与长尾分布的严峻挑战。历史书法作品因年代久远、保存状况不佳,存在大量噪声与残缺,且不同书法家的作品数量分布极不均衡,稀有风格的样本匮乏,这为模型学习带来了显著困难。此外,对连笔草书等复杂书体进行精确的字符边界框与转录标注,亦是一项耗费巨大且需要专业知识的艰巨任务。
常用场景
经典使用场景
在书法数字化与文化遗产保护领域,UNICALLI数据集为研究者提供了大规模、高精度的中文书法作品资源。该数据集收录了超过8000幅涵盖93位历代书法家作品的数字化图像,其中4000余幅作品进行了密集标注,包括书体类型、单字边界框及现代汉字转录。这些数据为书法风格分析、字形结构研究以及跨时代艺术演变探索奠定了坚实基础,尤其适用于训练深度学习模型以理解书法艺术的整体美学特征,如行气连贯、章法布局等传统审美要素。
实际应用
UNICALLI数据集的实际应用场景广泛涉及文化创意产业与数字人文领域。基于该数据集训练的模型能够生成风格一致、结构准确的完整书法作品,可直接用于个性化文创产品设计,如定制诗笺、吉语书签、传统婚书等。在文化遗产数字化保护方面,该技术能够高保真复原历史碑帖的列级布局与笔意神韵,为学术研究提供可视化分析工具。此外,其框架已成功扩展至甲骨文、埃及象形文字等古文字系统,展现了在跨文字体系数字化存档与智能解读方面的潜在价值,为全球文化遗产的活化利用提供了技术支撑。
衍生相关工作
围绕UNICALLI数据集衍生的经典研究工作主要集中在书法生成与识别的统一建模方向。受其启发,后续研究如CalliPaint、Moyun等模型尝试通过序列生成方式处理篇章级书法合成,但受自回归架构限制难以实现全局布局规划。而基于UNICALLI的扩散Transformer框架则通过双向注意力机制实现全画幅协同生成,在保持字形正确性的同时还原了书法作品的章法气韵。在识别领域,该数据集推动了如CalliReader等视觉语言模型的发展,使其能够结合上下文理解处理连笔草书等复杂书体,标志着书法计算从单字识别向语境化解读的重要演进。
以上内容由遇见数据集搜集并总结生成



