EVOBC|甲骨文数据集|文字识别数据集
收藏arXiv2024-02-13 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2401.12467v2
下载链接
链接失效反馈资源简介:
一个包含229,170张图像,代表13,714个不同字符类别的数据集,用于研究甲骨文的发展。
创建时间:
2024-01-23
AI搜集汇总
数据集介绍

构建方式
EVOBC数据集的构建方式是通过从权威文本和网站中系统地收集六个历史阶段的古汉字图像,包括甲骨文(15世纪 BC)、金文(13世纪至 221 BC)、篆书(11世纪至 8世纪 BC)、春秋时期文字(770 至 476 BC)、战国时期文字(475 BC 至 221 BC)和隶书(221 BC 至 220 AD)。数据集收集了 13,714 个不同字符类别的 229,170 张图像。
使用方法
EVOBC数据集的使用方法包括图像分类和甲骨文破译模拟任务。图像分类任务可以使用 ResNet-101 或 Swin Transformer v2 等模型进行训练和测试,以验证数据集的质量。甲骨文破译模拟任务可以使用基于图像分类或图像生成的模型进行训练和测试,以探索甲骨文破译的可能性。
背景与挑战
背景概述
甲骨文作为现存最早的汉字形式,与东亚其他语言有着密切的联系,对人类学和考古学具有重要的价值。然而,解读甲骨文仍然是一项艰巨的挑战,迄今为止,只有约1600个现存超过4500个的字符被解读。为了全面理解这一古老的书写系统,需要进一步的研究。人工智能技术在解读甲骨文方面具有巨大的潜力,特别是在其演变方面。然而,一个挑战是缺乏随时间推移映射这些字符演变的数据库。因此,本研究系统地收集了来自权威文本和网站的古代字符,跨越了六个历史阶段:甲骨文(公元前15世纪)、金文(公元前13世纪至公元前221年)、篆书(公元前11世纪至公元前8世纪)、春秋文字(公元前770年至公元前476年)、战国文字(公元前475年至公元前221年)和隶书(公元前221年至公元220年)。随后,我们构建了一个名为EVOBC的广泛数据集,包含229,170个图像,代表13,714个不同的字符类别。我们在构建的数据集上进行了验证和模拟解读,结果表明它在帮助研究甲骨文方面具有很高的效率。这个公开可访问的数据集旨在数字化跨越多个时代的古代汉字,通过研究字符的演变来促进甲骨文的解读。
当前挑战
EVOBC数据集在甲骨文研究方面取得了显著的进展,但仍面临一些挑战。首先,甲骨文本身的复杂性是一个主要挑战,其字符的形状和结构多样,难以准确识别和分类。其次,数据集的构建过程中遇到了一些挑战,例如从书籍和网站中自动提取和标注图像。为了解决这些问题,研究人员开发了一种自动化的图像提取和分类流程,包括切片裁剪、切片分组和提取。此外,还进行了人工审查和外部专家评估,以确保数据集的质量。最后,尽管EVOBC数据集在甲骨文研究方面取得了进展,但仍有许多未解读的甲骨文字符需要进一步研究。未来的研究可以探索更先进的机器学习和人工智能技术,以帮助解读这些未知的字符,并揭示甲骨文的演变过程。
常用场景
经典使用场景
EVOBC数据集最经典的使用场景是研究甲骨文字符的演变过程。通过分析同一字符在不同历史时期的图像,研究者可以探索甲骨文字符的形态变化、结构演变和意义变迁,从而深入理解甲骨文这一古老文字系统的起源和发展。此外,EVOBC数据集还可以用于甲骨文字符的识别和解读,通过训练机器学习模型,可以自动识别甲骨文字符并将其翻译成现代汉字,为甲骨文的研究和应用提供新的工具和方法。
解决学术问题
EVOBC数据集解决了甲骨文研究中的两个关键问题。首先,它提供了一个大规模、高质量的甲骨文字符图像数据集,为甲骨文字符的演变研究提供了可靠的数据基础。其次,EVOBC数据集涵盖了甲骨文字符的多个历史时期,使得研究者可以系统地研究甲骨文字符的演变过程,并揭示其内在规律。此外,EVOBC数据集还可以用于甲骨文字符的识别和解读,为甲骨文的研究和应用提供新的工具和方法。
实际应用
EVOBC数据集在实际应用中具有广泛的应用前景。首先,它可以用于甲骨文字符的数字化保存和传播,通过将甲骨文字符的图像进行数字化处理,可以方便地进行存储、检索和展示,从而促进甲骨文文化的传承和发展。其次,EVOBC数据集可以用于甲骨文字符的识别和解读,通过训练机器学习模型,可以自动识别甲骨文字符并将其翻译成现代汉字,为甲骨文的研究和应用提供新的工具和方法。此外,EVOBC数据集还可以用于甲骨文字符的演变研究,通过分析同一字符在不同历史时期的图像,可以揭示甲骨文字符的形态变化、结构演变和意义变迁,从而深入理解甲骨文这一古老文字系统的起源和发展。
数据集最近研究
最新研究方向
EVOBC数据集致力于构建一个涵盖甲骨文演变过程的大型数据集,该数据集涵盖了甲骨文、金文、篆书、春秋战国文字和隶书等六个历史阶段的文字图像。该数据集的构建旨在为人工智能辅助的甲骨文解读研究提供数据支持。目前,EVOBC数据集已被用于图像分类和甲骨文解读模拟等任务,并取得了令人鼓舞的结果。未来,该数据集有望为甲骨文演变规律的研究和甲骨文解读提供更深入的洞察。
相关研究论文
- 1An open dataset for the evolution of oracle bone characters: EVOBC · 2024年
以上内容由AI搜集并总结生成
