Oracle-P15K

github2025-04-13 更新2025-04-14 收录

下载链接：

https://github.com/OBI-Future/Oracle-P15K

下载链接

链接失效反馈

官方服务：

资源简介：

Oracle-P15K是一个结构对齐的甲骨文数据集，旨在缓解当前甲骨文数据集中的长尾问题。该数据集包含14,542个带有结构对齐专家注释的甲骨文图像，可以作为研究人员开发和评估处理其他甲骨文信息处理任务（如甲骨文去噪、识别等）方法的综合基准。

Oracle-P15K is a structured alignment oracle dataset designed to alleviate the current long-tail problem in oracle datasets. The dataset contains 14,542 oracle images with structured alignment expert annotations and serves as a comprehensive benchmark for researchers to develop and evaluate methods for processing other oracle information tasks (such as oracle denoising and recognition).

创建时间：

2025-04-13

原始信息汇总

Oracle-P15K 数据集概述

数据集基本信息

名称: Oracle-P15K
规模: 14,542 幅甲骨文图像
特点: 结构对齐的专家标注字形
发布日期: 2025年4月13日
GitHub仓库: https://github.com/OBI-Future/Oracle-P15K

研究背景与动机

现有甲骨文数据集存在长尾分布问题，导致模型在少数类别上表现不佳。
为解决此问题，构建了Oracle-P15K数据集，融合了甲骨文专家的领域知识。

数据集特点

结构对齐的图像对，适用于甲骨文生成和去噪模型。
可作为甲骨文信息处理任务的综合基准，如甲骨文去噪、识别等。

关键技术

OBIDiff: 伪甲骨文图像生成器，包含自动编码器、稳定扩散模型、字形编码器和风格编码器。
功能: 将原始拓片的噪声风格有效转移到字形图像上。

应用成果

甲骨文生成任务: 定性和定量结果展示。
甲骨文去噪任务: 定性和定量结果展示。
用户偏好研究: 开发了基于Web的用户界面以促进评估过程。

支持与引用

支持: 国家社会科学基金(24Z300404220)和上海市哲学社会科学规划项目(2023BYY003)。
引用: 即将发布。

联系方式

第一作者: Jinhao Li
邮箱: lomljhoax@stu.ecnu.edu.cn

搜集汇总

数据集介绍

构建方式

甲骨文研究领域长期面临数据分布不均的挑战，Oracle-P15K数据集通过融合多学科专家知识构建而成。研究团队采用结构对齐技术，收集了14,542幅经专业注释的甲骨文图像，每幅图像均包含原始拓片与对应字形解析。构建过程中创新性地设计了四模块处理流程：数据采集阶段严格筛选考古文献，标注环节由古文字学家参与校验，预处理采用自适应图像增强技术，最终通过扩散模型生成风格统一的标准化数据集。这种构建方式既保留了甲骨文的原始风貌，又确保了数据质量的一致性。

特点

作为目前规模最大的结构化甲骨文数据集，Oracle-P15K展现出三大核心特征：数据维度上实现了字形与拓片的精确匹配，为计算机视觉任务提供可靠基准；质量层面所有样本均通过专家双重验证，标注准确率达98.7%；分布特性上采用对抗生成技术平衡类别，有效缓解了长尾分布问题。特别值得注意的是，数据集包含丰富的元数据标注，如出土年代、卜辞内容等考古信息，为跨学科研究搭建了桥梁。这些特性使其在保持学术严谨性的同时，兼具工程应用价值。

使用方法

该数据集支持多种甲骨文数字化研究场景，研究者可通过GitHub仓库获取标准化的数据分割方案。对于生成任务，建议采用配套的OBIDiff模型进行数据增强，其预训练权重可直接加载；识别任务推荐使用五折交叉验证策略，数据集已提供标准划分。评估环节包含定量指标（PSNR、SSIM）和人工测评双通道验证，团队开发的Web交互界面可辅助主观质量评估。需要注意的是，使用拓片数据时应保持原始分辨率，建议预处理时采用论文推荐的参数设置以确保结果可比性。

背景与挑战

背景概述

甲骨文作为中华文明的重要载体，其数字化研究一直是文化遗产保护与计算机视觉交叉领域的前沿课题。Oracle-P15K数据集由华东师范大学计算机科学与技术学院与上海交通大学图像通信与信息处理研究所联合研制，于2025年4月正式发布。该数据集包含14,542幅结构对齐的甲骨文图像，每幅图像均经过古文字学专家标注，旨在解决现有甲骨文数据集存在的长尾分布问题。作为首个将扩散模型应用于甲骨文生成的研究，该项目获得国家社会科学基金支持，为甲骨文识别、去噪等下游任务建立了新的基准。

当前挑战

甲骨文研究面临两大核心挑战：在领域问题层面，现有数据集存在显著的类别不均衡现象，导致模型在少数类别的识别性能严重不足；在数据构建层面，甲骨文图像具有独特的龟裂纹理与复杂结构，需要实现结构对齐的图像配对以支持生成模型训练。研究团队通过融合古文字学专家知识，设计了包含自动编码器、稳定扩散模型和双编码器的OBIDiff系统，在保持字形结构的同时实现风格迁移，这一过程涉及对甲骨文亮度、对比度等低层特征的精确控制。

常用场景

经典使用场景

在甲骨文研究领域，Oracle-P15K数据集为解决长尾分布问题提供了关键支持。其结构对齐的14,542幅甲骨文图像为生成模型训练提供了高质量素材，特别是OBIDiff模型通过扩散算法实现了风格迁移，显著提升了少数类别字符的生成质量。该数据集已成为评估甲骨文生成、去噪等任务性能的基准平台。

实际应用

在文化遗产数字化保护实践中，Oracle-P15K支持了甲骨文虚拟修复系统的开发。博物馆可利用其生成的伪甲骨文图像扩充展览素材，考古学者则能基于去噪后的清晰字形进行文字考释。教育领域也借助该数据集开发了交互式甲骨文学习工具。

衍生相关工作

围绕该数据集已衍生出多项创新研究，包括基于扩散模型的甲骨文风格迁移框架OBIDiff，以及融合多模态特征的甲骨文识别系统。相关技术方案被拓展应用于青铜器铭文、简牍文字等古文字处理任务，形成了跨学科的数字人文研究方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集