HUST-OBS

Name: HUST-OBS
Creator: 华中科技大学
Published: 2024-02-13 15:09:56
License: 暂无描述

arXiv2024-02-13 更新2024-06-21 收录

下载链接：

https://github.com/wwwwpj/HUST-OBS.git

下载链接

链接失效反馈

官方服务：

资源简介：

HUST-OBS数据集由华中科技大学创建，包含140,053张甲骨文图像，分为已解读和未解读两部分，旨在通过人工智能辅助解读甲骨文。数据集内容丰富，涵盖1,588个已解读字符和9,411个未解读字符，图像来源于书籍、网站和数据库。创建过程中，采用了半自动数据收集和标注流程，确保数据质量和多样性。该数据集主要应用于甲骨文识别和解读研究，旨在解决甲骨文解读中的复杂性和挑战。

The HUST-OBS dataset was developed by Huazhong University of Science and Technology. It contains 140,053 oracle bone inscription (OBI) images, which are categorized into two groups: interpreted and uninterpreted. The dataset is designed to facilitate oracle bone inscription interpretation with the assistance of artificial intelligence. The dataset covers rich content, including 1,588 interpreted characters and 9,411 uninterpreted characters. Its source materials are derived from books, websites and databases. During the construction process, a semi-automatic data collection and annotation workflow was employed to guarantee data quality and diversity. This dataset is primarily utilized for research on oracle bone inscription recognition and interpretation, with the goal of tackling the complexity and challenges inherent in oracle bone inscription interpretation.

提供机构：

华中科技大学

创建时间：

2024-01-27

搜集汇总

数据集介绍

构建方式

HUST-OBS 数据集的构建融合了来自书籍、网站和数据库的甲骨文数据，涵盖了已破译和未破译的甲骨文图像。数据采集过程中，使用了书籍扫描、网络爬虫和数据库访问等多种手段，以获取甲骨文的原始图像和专家转录的文本。随后，通过半自动化流程进行数据标注，包括图像裁剪、分类和标注，并利用深度学习模型如 ResNet-50 对甲骨文进行分类。最后，由甲骨文研究专家对数据进行审核和校正，以确保数据集的准确性和可靠性。

特点

HUST-OBS 数据集具有以下几个显著特点：首先，数据集规模庞大，包含超过 14 万张甲骨文图像，覆盖了 1.5 万个已破译字符和 9.4 万个未破译字符类别；其次，数据集涵盖了甲骨文的多样性，包括不同年代、不同形状和不同风格的字符；再次，数据集采用了半自动化标注流程，提高了标注效率和准确性；最后，数据集由甲骨文研究专家进行了严格的审核和校正，保证了数据的质量和可靠性。

使用方法

背景与挑战

背景概述

甲骨文作为已知最早的古代汉字书写形式之一，蕴含着丰富的人文和地理信息，为研究商朝提供了珍贵的史料。然而，由于时间的流逝，许多甲骨文的意义已经失传，这给甲骨文的解读带来了巨大的挑战。随着人工智能技术的兴起，利用AI辅助解读甲骨文成为了一种可行的方案。HUST-OBS数据集应运而生，它收集了来自不同来源的甲骨文图片，包括已解读和未解读的字符，为甲骨文的数字化和识别研究提供了重要的数据基础。

当前挑战

甲骨文解读面临的挑战包括：1)甲骨文图片的多样性：甲骨文图片来源于书籍、网站和数据库，这些图片在质量、大小和格式上存在差异，需要统一处理；2)甲骨文字符的多样性：甲骨文字符的形式多样，存在多种变体，这给字符的识别和分类带来了困难；3)未解读甲骨文的数量巨大：目前只有约1000个甲骨文字符被解读，还有大量未解读的字符需要研究；4)数据标注的准确性：由于甲骨文解读的专业性，数据标注的准确性难以保证，这会影响AI模型的训练效果。

常用场景

经典使用场景

甲骨文，作为中国古代最早的书写形式之一，承载着丰富的历史和文化价值。然而，由于时间的流逝，许多甲骨文的意义已经模糊不清，解读这些古老文本成为了一项极具挑战性的任务。HUST-OBS数据集的创建，为甲骨文识别和解码的研究提供了宝贵的资源。该数据集包含了大量已解码和未解码的甲骨文图像，为研究者提供了进行深度学习模型训练的基础。经典的使用场景包括利用深度学习模型进行甲骨文字符识别，通过图像分类和特征提取技术，实现对甲骨文字符的高精度识别。此外，研究者还可以利用该数据集进行甲骨文解码的研究，通过对比已解码和未解码的甲骨文图像，探索甲骨文字符的演变规律，为甲骨文解码提供新的思路。

解决学术问题

HUST-OBS数据集的创建解决了甲骨文识别和解码研究中缺乏高质量数据集的问题。传统的甲骨文研究主要依赖于人工解读，效率低下且容易出错。HUST-OBS数据集的提供，为研究者提供了大量已解码和未解码的甲骨文图像，使得深度学习模型在甲骨文识别和解码任务中的应用成为可能。此外，该数据集还解决了甲骨文研究中的数据来源单一的问题，通过收集来自书籍、网站和数据库等多种来源的数据，保证了数据集的多样性和可靠性。

衍生相关工作

HUST-OBS数据集的创建，为甲骨文识别和解码研究提供了新的方向和思路。基于该数据集，研究者可以开展更多相关的研究工作，例如甲骨文字符的演变规律研究、甲骨文解码算法研究、甲骨文与历史文化的关联研究等。此外，HUST-OBS数据集还可以与其他相关数据集进行整合，构建更大规模的甲骨文数据集，为甲骨文研究提供更加丰富的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集