Oracle-P15K
收藏arXiv2025-04-16 更新2025-04-18 收录
下载链接:
http://arxiv.org/abs/2504.09555v2
下载链接
链接失效反馈官方服务:
资源简介:
Oracle-P15K是一个针对甲骨文生成和去噪的大型结构对齐甲骨文数据集,由华东师范大学和上海交通大学的研究者构建。该数据集包含14542张注入了甲骨文专家领域知识的结构对齐图像对,涵盖了四种常见的甲骨文噪声类型。它旨在为甲骨文生成和去噪模型提供支持,同时也可作为评估这些模型的全面基准。
Oracle-P15K is a large-scale structurally aligned oracle bone inscription dataset for oracle bone inscription generation and denoising, constructed by researchers from East China Normal University and Shanghai Jiao Tong University. This dataset contains 14,542 structurally aligned image pairs infused with domain knowledge from oracle bone inscription experts, covering four common types of noise in oracle bone inscriptions. It aims to support the development of oracle bone inscription generation and denoising models, and also serves as a comprehensive benchmark for evaluating such models.
提供机构:
华东师范大学, 上海交通大学
创建时间:
2025-04-13
搜集汇总
数据集介绍

构建方式
Oracle-P15K数据集的构建过程体现了跨学科研究的严谨性,通过整合考古学与计算机视觉技术,采用三阶段流程实现。在源内容采集阶段,研究团队从OBC306数据集中精选了涵盖甲骨文四种典型噪声类型的样本,确保数据多样性。专业书写阶段采用数字化工具Procreate配合7像素书法笔刷,由古文字学者完成结构对齐的甲骨文字形绘制,特别处理了笔画断裂和骨裂纹等复杂情况。质量控制环节创新性地结合了专家评审与自动化评估,采用0.8交并比阈值和0.865平均交并比的双重标准,确保字形与拓片的结构对齐精度。
特点
该数据集的核心价值体现在三个维度:规模上涵盖14,542个结构对齐的图像对,覆盖239个甲骨文字类;质量上通过专家标注和双重验证机制,确保字形语义准确性和结构对齐度;分布上采用平衡采样策略,每类训练集样本量严格控制在60个,标准差为零,有效避免了长尾分布带来的模型偏差。区别于现有数据集,Oracle-P15K首次实现了字形图像与拓片在笔画层面的精确对齐,为生成式模型提供了可靠的监督信号。
使用方法
数据集支持两种主要应用范式:在生成任务中,研究者可结合配套的OBIDiff模型,通过输入清洁字形和目标拓片风格,实现可控的甲骨文图像生成,有效扩充尾部字符样本。在去噪任务中,结构对齐特性使模型能准确分离字形结构与噪声模式,实验证明在39个尾部类别上使识别准确率提升4.7%。使用前需注意数据拆分规则,训练验证集来自200个头类,测试集来自39个尾类,确保评估的公正性。
背景与挑战
背景概述
甲骨文作为商朝晚期(公元前1400-1100年)的文字遗存,是研究中国古代历史与文化的重要载体。Oracle-P15K数据集由华东师范大学和上海交通大学的研究团队于2025年联合构建,旨在解决甲骨文字识别领域的长尾分布问题。该数据集包含14,542幅结构对齐的甲骨文图像,涵盖239个字符类别,并融合了甲骨学专家的领域知识。作为首个专为甲骨文生成与去噪任务设计的大规模结构对齐数据集,Oracle-P15K通过提供精细标注的字符图像对,显著提升了生成模型的训练效果,为甲骨文数字化保护与研究提供了新的技术范式。
当前挑战
甲骨文研究面临两大核心挑战:在领域问题层面,现有数据集存在严重的样本分布不均衡,头部类别样本量可达尾部类别的数万倍,导致识别模型在稀有字符上表现欠佳;在构建过程层面,甲骨文图像受自然风化与埋藏腐蚀影响,存在笔画断裂、骨裂纹等复杂噪声,需依赖专家知识进行结构对齐标注。Oracle-P15K针对性地解决了生成模型训练所需的大规模结构对齐图像对缺失问题,但其构建过程仍面临字符形态变异大、噪声模式多样等挑战,需通过双重质量检验机制(人工核验与自动IoU评估)确保数据可靠性。
常用场景
经典使用场景
Oracle-P15K数据集在甲骨文研究领域具有广泛的应用,尤其在解决长尾分布问题上表现突出。该数据集通过提供结构对齐的甲骨文图像对,为生成模型和去噪模型的训练提供了高质量的数据支持。其最经典的使用场景包括甲骨文生成和去噪任务,通过OBIDiff模型生成逼真且可控的甲骨文图像,有效缓解了数据不平衡问题,提升了模型在尾部类别上的识别性能。
衍生相关工作
Oracle-P15K数据集的推出催生了一系列相关研究,尤其是在生成模型和去噪算法领域。基于该数据集,研究者们开发了多种改进模型,如AGTGAN和STSN,进一步提升了甲骨文生成的质量和可控性。此外,该数据集还被用于评估多种去噪算法,如DnCNN和Uformer,推动了甲骨文图像处理技术的进步。这些衍生工作不仅扩展了数据集的应用范围,还为甲骨文研究提供了更多可能性。
数据集最近研究
最新研究方向
甲骨文-P15K数据集在古文字数字化保护领域开辟了基于生成式人工智能的长尾分布缓解新范式。该数据集通过14,542组结构对齐的甲骨文图像对,为扩散模型OBIDiff提供了精准的语义字形与风化纹理的耦合表征基础,有效解决了传统甲骨文识别中样本分布不均导致的尾部字符识别瓶颈。当前研究聚焦于三个前沿方向:其一,基于跨模态条件控制的甲骨文生成技术,通过字形编码器与风格编码器的协同训练,实现考古纹理与语义结构的解耦生成;其二,面向甲骨文数字修复的对抗性去噪网络,利用数据集中的四类典型噪声标注(断笔、骨裂、边缘腐蚀、密集白区)建立退化-清洁映射;其三,结合大语言模型的甲骨文释义研究,该数据集提供的结构化标注为多模态知识融合提供了考古学先验。2024年国家社会科学基金重大项目的支持进一步推动了该数据集在甲骨文智能考释中的应用,其构建方法已被扩展至青铜器铭文、简牍文字等古文字研究领域。
相关研究论文
- 1Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark华东师范大学, 上海交通大学 · 2025年
以上内容由遇见数据集搜集并总结生成



