UNICALLI

Name: UNICALLI
Creator: 香港科技大学(广州分校), 中国地质大学(北京), 厦门大学, 香港科技大学
Published: 2025-10-16 00:52:07
License: 暂无描述

arXiv2025-10-16 更新2026-03-27 收录

下载链接：

https://github.com/EnVision-Research/UniCalli

下载链接

链接失效反馈

官方服务：

资源简介：

UNICALLI数据集是一个包含超过8000个数字化作品的中文书法数据集，其中超过4000个作品被密集标注。数据集涵盖了93位经典书法家的作品，包括怀素、唐寅、颜真卿、欧阳询、米芾、赵佶、张即之和王羲之等。这些作品被标注为不同的书体类型（楷书、行书、草书），每个字符都有边界框和现代字符转录。该数据集旨在促进页面级分析和生成的相关研究。

提供机构：

香港科技大学(广州分校), 中国地质大学(北京), 厦门大学, 香港科技大学

创建时间：

2025-10-16

搜集汇总

数据集介绍

构建方式

在数字人文与计算机视觉交叉领域，构建高质量数据集是推动书法计算研究的关键基石。UNICALLI数据集通过系统化采集与标注流程构建而成，其核心来源包括超过8,000幅数字化古典书法作品，涵盖93位历代书法名家如王羲之、颜真卿、米芾等。其中4,000余幅作品进行了密集标注，涉及数十万个字符，标注内容包含字体类别（楷、行、草等）、单字符边界框及现代汉字转写。数据预处理阶段采用垂直文本段提取与随机裁剪策略，通过图像二值化算法统一墨迹与背景的对比关系，并引入合成数据增强，利用TrueType字体渲染古典文献文本，以扩充字符覆盖范围与风格多样性。

特点

该数据集在书法计算领域展现出多维度独特价值。其规模与质量并重，不仅收录作品时间跨度大、风格体系完整，更通过精细标注实现了从孤立字符到篇章布局的结构化解构。数据呈现显著的长尾分布特性，真实反映了书法史上名家作品存世量的不均衡性，为研究少样本学习提供了天然场景。数据形态上，它融合了真实历史图像与合成生成样本，既保留了石刻拓片的风化肌理与笔墨韵味，又通过标准化渲染保证了字符结构的清晰可控。尤为重要的是，数据集首次系统标注了列级别的空间关系与连笔特征，为建模篇章美学提供了结构化基础。

使用方法

该数据集设计支持书法生成与识别的双向任务验证。在生成任务中，研究者可基于文本内容、书法家身份与字体类别等多模态条件，驱动模型合成具有连贯连笔与合理章法的完整书法列。识别任务则利用标注的边界框与转写文本，评估模型从复杂书法图像中恢复字符序列的能力。使用流程通常包括数据加载、条件编码与任务模式选择：生成模式下以干净的标准字体潜变量为条件，逐步去噪生成书法图像；识别模式下则以书法图像为条件，重建对应的文本内容。数据集支持联合训练范式，可灵活混合标注数据、未标注数据与合成数据进行多任务学习，其潜空间检索机制更实现了零样本字符识别，为书法数字化研究提供了端到端的评估基准。

背景与挑战

背景概述

UNICALLI数据集由香港科技大学（广州）、中国地质大学（北京）及厦门大学的研究团队于2026年构建，旨在推动中国书法计算生成与识别的前沿研究。该数据集的核心研究问题聚焦于解决传统书法生成模型在篇章级创作上的局限，即如何同时保证单字结构的准确性与篇章整体的艺术连贯性，如字间连笔、空间节奏等美学要素。通过收录涵盖93位书法家、超过8000幅数字化作品，其中4000余幅带有密集的字符级标注，该数据集为书法艺术的数字化保存与智能生成提供了关键资源，对文化遗产计算领域产生了深远影响。

当前挑战

该数据集致力于解决书法篇章级生成与识别的双重挑战。在领域问题层面，主要挑战在于克服现有方法在生成完整书法作品时难以兼顾字形正确性与篇章美学一致性的矛盾，例如连笔的自然过渡与全局布局的和谐。在构建过程中，挑战体现在对大量历史书法作品的数字化处理与精细标注上，包括因年代久远导致的图像噪声、不同书体（如楷、行、草）的形态差异，以及长尾分布下少数书法家样本稀缺所带来的风格建模困难。

常用场景

经典使用场景

在数字人文与文化遗产保护领域，UNICALLI数据集为研究者提供了大规模、高精度的中国书法数字化资源。该数据集的核心应用场景在于支撑书法风格分析与生成模型的训练与评估，尤其专注于解决传统书法作品中整列文字的连贯性生成问题。通过集成超过8000幅涵盖93位书法家作品的数字化样本，其中4000余幅带有密集的字符级标注，研究者能够基于此数据集开发出能够模拟真实书法布局、连笔与空间节奏的生成系统，从而在计算艺术领域实现从孤立字符合成到完整作品创作的范式转变。

解决学术问题

UNICALLI数据集有效应对了书法计算中长期存在的关键学术挑战。传统方法往往在字符结构准确性与整体艺术性之间难以平衡，要么生成高质量单字却忽视列级美学，要么追求整体合成而牺牲字形正确性。该数据集通过提供列级标注的书法图像，使得联合训练生成与识别任务成为可能，从而引导模型学习字符结构与风格布局的抽象表征。这种设计不仅提升了生成作品在连笔连续性与布局保真度方面的表现，也增强了模型在有限数据场景下的识别鲁棒性，为书法数字化研究提供了新的方法论基础。

衍生相关工作

围绕UNICALLI数据集与统一框架，已衍生出一系列探索书法计算新范式的相关研究。其核心思想——通过生成与识别任务的双向约束学习共享表征——启发了更多针对序列艺术形式的联合建模方法。在生成方面，该工作推动了非自回归、全局规划式书法合成模型的发展，克服了此前自回归方法在整体布局上的局限。在识别领域，它促进了基于特征检索的零样本识别机制，为处理风格多变、布局不规则的历史文档提供了新思路。此外，该框架在跨文字系统（如甲骨文、埃及象形文字）上的成功验证，也激发了关于古文字数字化与跨模态文化遗产计算的新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集