five

Oracle-P15K|甲骨文处理数据集|图像去噪数据集

收藏
arXiv2025-04-16 更新2025-04-18 收录
甲骨文处理
图像去噪
下载链接:
http://arxiv.org/abs/2504.09555v2
下载链接
链接失效反馈
资源简介:
Oracle-P15K是一个针对甲骨文生成和去噪的大型结构对齐甲骨文数据集,由华东师范大学和上海交通大学的研究者构建。该数据集包含14542张注入了甲骨文专家领域知识的结构对齐图像对,涵盖了四种常见的甲骨文噪声类型。它旨在为甲骨文生成和去噪模型提供支持,同时也可作为评估这些模型的全面基准。
提供机构:
华东师范大学, 上海交通大学
创建时间:
2025-04-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
Oracle-P15K数据集的构建过程体现了跨学科研究的严谨性,通过整合考古学与计算机视觉技术,采用三阶段流程实现。在源内容采集阶段,研究团队从OBC306数据集中精选了涵盖甲骨文四种典型噪声类型的样本,确保数据多样性。专业书写阶段采用数字化工具Procreate配合7像素书法笔刷,由古文字学者完成结构对齐的甲骨文字形绘制,特别处理了笔画断裂和骨裂纹等复杂情况。质量控制环节创新性地结合了专家评审与自动化评估,采用0.8交并比阈值和0.865平均交并比的双重标准,确保字形与拓片的结构对齐精度。
特点
该数据集的核心价值体现在三个维度:规模上涵盖14,542个结构对齐的图像对,覆盖239个甲骨文字类;质量上通过专家标注和双重验证机制,确保字形语义准确性和结构对齐度;分布上采用平衡采样策略,每类训练集样本量严格控制在60个,标准差为零,有效避免了长尾分布带来的模型偏差。区别于现有数据集,Oracle-P15K首次实现了字形图像与拓片在笔画层面的精确对齐,为生成式模型提供了可靠的监督信号。
使用方法
数据集支持两种主要应用范式:在生成任务中,研究者可结合配套的OBIDiff模型,通过输入清洁字形和目标拓片风格,实现可控的甲骨文图像生成,有效扩充尾部字符样本。在去噪任务中,结构对齐特性使模型能准确分离字形结构与噪声模式,实验证明在39个尾部类别上使识别准确率提升4.7%。使用前需注意数据拆分规则,训练验证集来自200个头类,测试集来自39个尾类,确保评估的公正性。
背景与挑战
背景概述
甲骨文作为商朝晚期(公元前1400-1100年)的文字遗存,是研究中国古代历史与文化的重要载体。Oracle-P15K数据集由华东师范大学和上海交通大学的研究团队于2025年联合构建,旨在解决甲骨文字识别领域的长尾分布问题。该数据集包含14,542幅结构对齐的甲骨文图像,涵盖239个字符类别,并融合了甲骨学专家的领域知识。作为首个专为甲骨文生成与去噪任务设计的大规模结构对齐数据集,Oracle-P15K通过提供精细标注的字符图像对,显著提升了生成模型的训练效果,为甲骨文数字化保护与研究提供了新的技术范式。
当前挑战
甲骨文研究面临两大核心挑战:在领域问题层面,现有数据集存在严重的样本分布不均衡,头部类别样本量可达尾部类别的数万倍,导致识别模型在稀有字符上表现欠佳;在构建过程层面,甲骨文图像受自然风化与埋藏腐蚀影响,存在笔画断裂、骨裂纹等复杂噪声,需依赖专家知识进行结构对齐标注。Oracle-P15K针对性地解决了生成模型训练所需的大规模结构对齐图像对缺失问题,但其构建过程仍面临字符形态变异大、噪声模式多样等挑战,需通过双重质量检验机制(人工核验与自动IoU评估)确保数据可靠性。
常用场景
经典使用场景
Oracle-P15K数据集在甲骨文研究领域具有广泛的应用,尤其在解决长尾分布问题上表现突出。该数据集通过提供结构对齐的甲骨文图像对,为生成模型和去噪模型的训练提供了高质量的数据支持。其最经典的使用场景包括甲骨文生成和去噪任务,通过OBIDiff模型生成逼真且可控的甲骨文图像,有效缓解了数据不平衡问题,提升了模型在尾部类别上的识别性能。
衍生相关工作
Oracle-P15K数据集的推出催生了一系列相关研究,尤其是在生成模型和去噪算法领域。基于该数据集,研究者们开发了多种改进模型,如AGTGAN和STSN,进一步提升了甲骨文生成的质量和可控性。此外,该数据集还被用于评估多种去噪算法,如DnCNN和Uformer,推动了甲骨文图像处理技术的进步。这些衍生工作不仅扩展了数据集的应用范围,还为甲骨文研究提供了更多可能性。
数据集最近研究
最新研究方向
甲骨文-P15K数据集在古文字数字化保护领域开辟了基于生成式人工智能的长尾分布缓解新范式。该数据集通过14,542组结构对齐的甲骨文图像对,为扩散模型OBIDiff提供了精准的语义字形与风化纹理的耦合表征基础,有效解决了传统甲骨文识别中样本分布不均导致的尾部字符识别瓶颈。当前研究聚焦于三个前沿方向:其一,基于跨模态条件控制的甲骨文生成技术,通过字形编码器与风格编码器的协同训练,实现考古纹理与语义结构的解耦生成;其二,面向甲骨文数字修复的对抗性去噪网络,利用数据集中的四类典型噪声标注(断笔、骨裂、边缘腐蚀、密集白区)建立退化-清洁映射;其三,结合大语言模型的甲骨文释义研究,该数据集提供的结构化标注为多模态知识融合提供了考古学先验。2024年国家社会科学基金重大项目的支持进一步推动了该数据集在甲骨文智能考释中的应用,其构建方法已被扩展至青铜器铭文、简牍文字等古文字研究领域。
相关研究论文
  • 1
    Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark华东师范大学, 上海交通大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录