five

OBI Component 20

收藏
github2024-08-29 更新2024-08-31 收录
下载链接:
https://github.com/hutt94/Component-Level_OBI_Retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
在OBI Component 20数据集中,我们选择了20个常见的甲骨文组件。由于每个组件可以有不同的形式,我们选择了代表性的形式进行展示。基于这些组件,我们从小學堂收集了11,335个甲骨文字符图像,并经过筛选和标注,最终形成了包含10,257个甲骨文图像的数据集,其中包括9,245个甲骨文字符和1,012个甲骨文组件。

In the OBI Component 2 dataset, we selected 20 common oracle bone script components. Since each component may have multiple forms, we chose representative variants for demonstration. Based on these components, we collected 11,335 oracle bone script character images from Xiaoxuetang. After screening and annotation, we finally constructed a dataset containing 10,257 oracle bone script images, which consists of 9,245 oracle bone script characters and 1,012 oracle bone script components.
创建时间:
2024-08-26
原始信息汇总

数据集概述

数据集名称

Component-Level OBI Retrieval

数据集描述

OBI Component 20 数据集包含20个常见的甲骨文组件。由于每个组件可以有不同的形式,我们选择了代表性的形式进行展示。

image

基于这些组件,我们从 小學堂 收集了11,335个甲骨文图像。经过 Prof. Pui-ling Tang 和 Ms. Peiying Zhang 的筛选,去除了不包含这20个选定组件的图像,最终保留了9,245个甲骨文图像。在这些图像中,Ms. Zhang 进一步标注了1,012个甲骨文图像中组件的具体位置,力求覆盖同一组件的不同形式。最终,OBI Component 20 数据集包含总共10,257个甲骨文图像,其中9,245个是甲骨文字符,1,012个是甲骨文组件。它们的分布如下表所示。

组件 字符数量 组件数量 组件 字符数量 组件数量
371 18 641 29
106 41 179 33
152 17 422 31
115 16 414 91
622 41 1132 72
267 14 69 51
465 24 1592 42
204 117 55 8
385 32 383 32
1403 226 268 77

数据集使用

如需使用此数据集,请通过电子邮件 cszkhu@comp.hkbu.edu.hk 提供以下信息,我们将在收到邮件后的5个工作日内提供数据集下载链接:

  1. 您的姓名,
  2. 您的机构,
  3. 数据集的预期用途,
  4. 声明确保不会将其用于商业盈利。

引用

@inproceedings{hu2024component, title={Component-Level Oracle Bone Inscription Retrieval}, author={Hu, Zhikai and Cheung, Yiu-ming and Zhang, Yonggang and Zhang, Peiying and Tang, Pui-ling}, booktitle={Proceedings of the 2024 International Conference on Multimedia Retrieval}, pages={647--656}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建OBI Component 20数据集时,研究团队精心挑选了20个常见的甲骨文(OBI)组件。考虑到每个组件可能存在多种形态,研究团队选择了最具代表性的形态进行展示。随后,从[小學堂](https://xiaoxue.iis.sinica.edu.tw/)收集了11,335个甲骨文图像,并邀请香港大学的Prof. Pui-ling Tang和Ms. Peiying Zhang进行筛选,剔除不符合标准的图像,最终保留了9,245个甲骨文图像。此外,Ms. Zhang还对1,012个图像进行了组件位置的详细标注,以确保覆盖同一组件的不同形态。最终,数据集包含10,257个甲骨文图像,其中9,245个为甲骨文字符,1,012个为甲骨文组件。
使用方法
使用OBI Component 20数据集时,用户需通过电子邮件向指定地址申请,提供个人信息、机构信息、数据集的预期用途以及非商业用途的声明。获得批准后,用户可下载数据集并用于甲骨文研究、图像识别等学术研究。数据集附带的代码示例包括模型训练、测试和检索结果的可视化,用户可根据需要调整参数进行实验。为确保数据的合法使用,用户需遵守相关版权规定,不得将数据用于商业盈利。
背景与挑战
背景概述
甲骨文(Oracle Bone Inscriptions, OBI)作为古代中国文字的重要遗存,其研究对于理解早期文明具有深远意义。OBI Component 20数据集由香港大学的Pui-ling Tang教授和Peiying Zhang女士主导,旨在通过选取20个常见的甲骨文部件,构建一个高质量的甲骨文图像数据集。该数据集不仅包含了11,335个甲骨文字符图像,还特别标注了1,012个字符中部件的具体位置,以覆盖不同形态的同一部件。这一数据集的创建为甲骨文研究提供了宝贵的资源,尤其在计算机视觉和自然语言处理领域,为甲骨文识别和检索提供了新的研究方向。
当前挑战
OBI Component 20数据集在构建过程中面临多项挑战。首先,甲骨文字符形态多样,同一部件在不同字符中可能呈现多种形态,这增加了数据标注的复杂性。其次,数据集的版权问题要求使用者必须通过特定渠道申请,这可能限制了数据集的广泛应用。此外,甲骨文研究领域相对小众,相关研究资源有限,如何有效利用这一数据集进行跨学科研究,仍是一个待解决的问题。最后,数据集的规模相对较小,如何在有限的数据量下训练出高效的模型,也是研究人员需要克服的挑战。
常用场景
经典使用场景
OBI Component 20数据集在甲骨文(OBI)研究领域中,主要用于组件级别的甲骨文检索。通过该数据集,研究者可以训练和测试模型,以识别和检索甲骨文中的特定组件。例如,研究者可以利用该数据集训练模型,使其能够从大量的甲骨文图像中准确识别出‘日’、‘月’、‘人’等常见组件,并进一步分析这些组件在不同甲骨文中的变体和分布情况。
解决学术问题
OBI Component 20数据集解决了甲骨文研究中的一个关键问题,即如何在大量复杂的甲骨文图像中准确识别和检索特定组件。这一问题的解决不仅有助于甲骨文的基础研究,如字形演变和语义分析,还为甲骨文的历史和文化研究提供了新的工具和方法。通过该数据集,研究者可以更深入地探索甲骨文的结构和内容,从而推动甲骨文研究的进一步发展。
实际应用
在实际应用中,OBI Component 20数据集可用于文化遗产保护和历史研究。例如,博物馆和研究机构可以利用该数据集开发智能检索系统,帮助研究人员快速定位和分析特定的甲骨文组件,从而提高研究效率。此外,该数据集还可用于教育领域,帮助学生和学者更好地理解和学习甲骨文,促进传统文化的传承和发展。
数据集最近研究
最新研究方向
在甲骨文研究领域,OBI Component 20数据集的最新研究方向主要集中在组件级别的甲骨文检索技术上。该数据集通过精选20个常见的甲骨文组件,并收集和标注了大量甲骨文图像,为研究者提供了丰富的资源。前沿研究不仅关注于提高甲骨文图像的识别精度,还探索了如何通过深度学习模型更有效地定位和检索甲骨文中的特定组件。这一研究方向不仅有助于推动甲骨文数字化和自动化处理的发展,还为文化遗产的保护和传承提供了新的技术手段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作