Oracle-P15K
收藏arXiv2025-04-13 更新2025-04-17 收录
下载链接:
http://arxiv.org/abs/2504.09555v1
下载链接
链接失效反馈官方服务:
资源简介:
Oracle-P15K是一个甲骨文图像数据集,由华东师范大学和上海交通大学的研究机构共同构建。该数据集包含14542个结构对齐的图像对,旨在服务于甲骨文生成和去噪任务。图像对由专家手工绘制的glyph图像和具有四种常见噪声类型的style图像组成。该数据集经过专家指导和自动化的质量控制,确保了图像对的质量和准确性。Oracle-P15K数据集为甲骨文信息处理任务提供了可靠的数据资源,如甲骨文生成和去噪,有助于提高模型的鲁棒性和准确性。
Oracle-P15K is an oracle bone script image dataset jointly developed by the research institutes of East China Normal University and Shanghai Jiao Tong University. This dataset contains 14,542 structurally aligned image pairs, targeting oracle bone script generation and denoising tasks. The image pairs consist of expert-hand-drawn oracle bone glyph images and style images corrupted by four common noise types. It has undergone expert-guided and automated quality control to guarantee the quality and accuracy of the image pairs. The Oracle-P15K dataset offers a reliable data resource for oracle bone script information processing tasks including generation and denoising, which contributes to enhancing the robustness and accuracy of related models.
提供机构:
华东师范大学, 上海交通大学
创建时间:
2025-04-13
搜集汇总
数据集介绍

构建方式
Oracle-P15K数据集的构建过程体现了多学科交叉的严谨性,其核心在于创建结构对齐的甲骨文字形与拓片图像对。研究团队从OBC306数据集中精选包含四种典型噪声类型的原始拓片,采用iPad Pro与专业绘图软件Procreate,由甲骨文专家以7像素书法单线笔触逐帧绘制对应字形。为确保学术可靠性,构建流程实施了双重质量验证机制:首先通过两名专家背对背评估字形准确性与结构对齐度,随后采用自动化程序计算交并比(IoU)量化对齐精度,最终筛选阈值设定为0.8,数据集平均mIoU达0.865。这种融合人工校验与算法验证的混合构建方法,在14,542组图像中实现了考古学精确性与计算机视觉适用性的平衡。
特点
作为甲骨文研究领域首个大规模结构对齐数据集,Oracle-P15K展现出三大核心特征:其一,覆盖239个字符类别并均衡包含笔画断裂、骨裂纹、边缘腐蚀及密集白斑四种典型噪声,每类训练样本严格控制在60个以实现分布平衡;其二,创新性地采用反色字形设计(白底黑字),与常规拓片(黑底白字)形成色彩空间互补,增强模型对字形结构的辨识能力;其三,数据集构建过程深度融合领域知识,所有字形均经甲骨文学者依据商代文字构形规律进行破损笔画修复,在保持考古真实性的同时解决了因自然风化导致的语义模糊问题。这些特性使其成为连接古文字学与人工智能研究的桥梁型数据资源。
使用方法
该数据集支持多维度的研究应用:在生成任务中,研究者可基于OBIDiff框架实现可控的甲骨文合成,通过解耦字形编码器与风格编码器,将输入字形与目标拓片风格进行隐空间融合;在去噪任务中,结构对齐特性允许采用对比学习策略,通过配对样本的像素级监督恢复受损字符。具体实施时,建议将14,542组数据按8:1:1划分训练、验证与测试集,其中测试集专门选自39个长尾类别以评估模型泛化能力。对于跨模态研究,数据集提供的反色字形可直接对接现有手写体甲骨文数据集,实现基于风格迁移的数据增强。所有图像统一为128×128分辨率,确保与主流扩散模型的兼容性。
背景与挑战
背景概述
甲骨文作为商代晚期(公元前1400-1100年)的珍贵文字遗产,是研究中国古代文明的重要载体。由华东师范大学和上海交通大学联合研发的Oracle-P15K数据集于2025年发布,包含14,542幅经过结构对齐的甲骨文字图像,每幅图像均由领域专家标注字形特征。该数据集针对现有甲骨文数据集中普遍存在的长尾分布问题,通过融合生成式模型技术,为甲骨文字符识别、去噪等下游任务提供了标准化基准。其创新性地采用扩散模型OBIDiff实现可控的甲骨文生成,在文化遗产数字化保护领域具有里程碑意义。
当前挑战
甲骨文研究面临两大核心挑战:在领域问题层面,现有数据集存在严重的类别不平衡现象,最大类与最小类样本量差异高达25,898:2,导致识别模型在稀少字符类别上表现欠佳;在构建过程层面,甲骨文图像受自然风化、骨裂纹理等复杂噪声干扰,需要专家介入完成结构对齐的精细标注。此外,生成式数据增强方法面临风格迁移不可控、字形结构失真等技术瓶颈,而传统手工拓片与摹本之间的模态差异进一步增加了跨模态学习的难度。
常用场景
经典使用场景
Oracle-P15K数据集在甲骨文研究领域具有广泛的应用价值,尤其在解决长尾分布问题上表现出色。该数据集通过提供结构对齐的甲骨文图像对,为生成模型和去噪模型的训练提供了可靠的数据支持。其经典使用场景包括甲骨文字符的生成与去噪,特别是在少数类别的样本增强方面表现突出。通过OBIDiff模型,研究人员能够生成高质量且可控的甲骨文图像,从而显著提升下游任务的性能。
实际应用
在实际应用中,Oracle-P15K数据集为甲骨文保护和学术研究提供了重要支持。例如,在文化遗产保护领域,该数据集可用于生成高质量的甲骨文图像,辅助专家进行字符识别和解读。在教育领域,生成的甲骨文图像可用于教学材料的制作,帮助学生更好地理解古代文字。此外,该数据集还可用于开发自动化的甲骨文修复工具,提升文物保护的效率和准确性。
衍生相关工作
Oracle-P15K数据集衍生了一系列经典研究工作,特别是在生成模型和去噪模型的应用上。例如,基于该数据集开发的OBIDiff模型在甲骨文图像生成任务中表现出色,能够准确保留字符结构并转换风格。此外,数据集还促进了甲骨文去噪方法的发展,如CharFormer和RCRN等模型在去噪任务中取得了显著进展。这些工作不仅推动了甲骨文研究的技术创新,还为其他古代文字的研究提供了借鉴。
以上内容由遇见数据集搜集并总结生成



