five

OBI Component 20|甲骨文数据集|图像识别数据集

收藏
github2024-08-29 更新2024-08-31 收录
甲骨文
图像识别
下载链接:
https://github.com/hutt94/Component-Level_OBI_Retrieval
下载链接
链接失效反馈
资源简介:
在OBI Component 20数据集中,我们选择了20个常见的甲骨文组件。由于每个组件可以有不同的形式,我们选择了代表性的形式进行展示。基于这些组件,我们从小學堂收集了11,335个甲骨文字符图像,并经过筛选和标注,最终形成了包含10,257个甲骨文图像的数据集,其中包括9,245个甲骨文字符和1,012个甲骨文组件。
创建时间:
2024-08-26
原始信息汇总

数据集概述

数据集名称

Component-Level OBI Retrieval

数据集描述

OBI Component 20 数据集包含20个常见的甲骨文组件。由于每个组件可以有不同的形式,我们选择了代表性的形式进行展示。

image

基于这些组件,我们从 小學堂 收集了11,335个甲骨文图像。经过 Prof. Pui-ling Tang 和 Ms. Peiying Zhang 的筛选,去除了不包含这20个选定组件的图像,最终保留了9,245个甲骨文图像。在这些图像中,Ms. Zhang 进一步标注了1,012个甲骨文图像中组件的具体位置,力求覆盖同一组件的不同形式。最终,OBI Component 20 数据集包含总共10,257个甲骨文图像,其中9,245个是甲骨文字符,1,012个是甲骨文组件。它们的分布如下表所示。

组件 字符数量 组件数量 组件 字符数量 组件数量
371 18 641 29
106 41 179 33
152 17 422 31
115 16 414 91
622 41 1132 72
267 14 69 51
465 24 1592 42
204 117 55 8
385 32 383 32
1403 226 268 77

数据集使用

如需使用此数据集,请通过电子邮件 cszkhu@comp.hkbu.edu.hk 提供以下信息,我们将在收到邮件后的5个工作日内提供数据集下载链接:

  1. 您的姓名,
  2. 您的机构,
  3. 数据集的预期用途,
  4. 声明确保不会将其用于商业盈利。

引用

@inproceedings{hu2024component, title={Component-Level Oracle Bone Inscription Retrieval}, author={Hu, Zhikai and Cheung, Yiu-ming and Zhang, Yonggang and Zhang, Peiying and Tang, Pui-ling}, booktitle={Proceedings of the 2024 International Conference on Multimedia Retrieval}, pages={647--656}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建OBI Component 20数据集时,研究团队精心挑选了20个常见的甲骨文(OBI)组件。考虑到每个组件可能存在多种形态,研究团队选择了最具代表性的形态进行展示。随后,从[小學堂](https://xiaoxue.iis.sinica.edu.tw/)收集了11,335个甲骨文图像,并邀请香港大学的Prof. Pui-ling Tang和Ms. Peiying Zhang进行筛选,剔除不符合标准的图像,最终保留了9,245个甲骨文图像。此外,Ms. Zhang还对1,012个图像进行了组件位置的详细标注,以确保覆盖同一组件的不同形态。最终,数据集包含10,257个甲骨文图像,其中9,245个为甲骨文字符,1,012个为甲骨文组件。
使用方法
使用OBI Component 20数据集时,用户需通过电子邮件向指定地址申请,提供个人信息、机构信息、数据集的预期用途以及非商业用途的声明。获得批准后,用户可下载数据集并用于甲骨文研究、图像识别等学术研究。数据集附带的代码示例包括模型训练、测试和检索结果的可视化,用户可根据需要调整参数进行实验。为确保数据的合法使用,用户需遵守相关版权规定,不得将数据用于商业盈利。
背景与挑战
背景概述
甲骨文(Oracle Bone Inscriptions, OBI)作为古代中国文字的重要遗存,其研究对于理解早期文明具有深远意义。OBI Component 20数据集由香港大学的Pui-ling Tang教授和Peiying Zhang女士主导,旨在通过选取20个常见的甲骨文部件,构建一个高质量的甲骨文图像数据集。该数据集不仅包含了11,335个甲骨文字符图像,还特别标注了1,012个字符中部件的具体位置,以覆盖不同形态的同一部件。这一数据集的创建为甲骨文研究提供了宝贵的资源,尤其在计算机视觉和自然语言处理领域,为甲骨文识别和检索提供了新的研究方向。
当前挑战
OBI Component 20数据集在构建过程中面临多项挑战。首先,甲骨文字符形态多样,同一部件在不同字符中可能呈现多种形态,这增加了数据标注的复杂性。其次,数据集的版权问题要求使用者必须通过特定渠道申请,这可能限制了数据集的广泛应用。此外,甲骨文研究领域相对小众,相关研究资源有限,如何有效利用这一数据集进行跨学科研究,仍是一个待解决的问题。最后,数据集的规模相对较小,如何在有限的数据量下训练出高效的模型,也是研究人员需要克服的挑战。
常用场景
经典使用场景
OBI Component 20数据集在甲骨文(OBI)研究领域中,主要用于组件级别的甲骨文检索。通过该数据集,研究者可以训练和测试模型,以识别和检索甲骨文中的特定组件。例如,研究者可以利用该数据集训练模型,使其能够从大量的甲骨文图像中准确识别出‘日’、‘月’、‘人’等常见组件,并进一步分析这些组件在不同甲骨文中的变体和分布情况。
解决学术问题
OBI Component 20数据集解决了甲骨文研究中的一个关键问题,即如何在大量复杂的甲骨文图像中准确识别和检索特定组件。这一问题的解决不仅有助于甲骨文的基础研究,如字形演变和语义分析,还为甲骨文的历史和文化研究提供了新的工具和方法。通过该数据集,研究者可以更深入地探索甲骨文的结构和内容,从而推动甲骨文研究的进一步发展。
实际应用
在实际应用中,OBI Component 20数据集可用于文化遗产保护和历史研究。例如,博物馆和研究机构可以利用该数据集开发智能检索系统,帮助研究人员快速定位和分析特定的甲骨文组件,从而提高研究效率。此外,该数据集还可用于教育领域,帮助学生和学者更好地理解和学习甲骨文,促进传统文化的传承和发展。
数据集最近研究
最新研究方向
在甲骨文研究领域,OBI Component 20数据集的最新研究方向主要集中在组件级别的甲骨文检索技术上。该数据集通过精选20个常见的甲骨文组件,并收集和标注了大量甲骨文图像,为研究者提供了丰富的资源。前沿研究不仅关注于提高甲骨文图像的识别精度,还探索了如何通过深度学习模型更有效地定位和检索甲骨文中的特定组件。这一研究方向不仅有助于推动甲骨文数字化和自动化处理的发展,还为文化遗产的保护和传承提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。

huggingface 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

WEAR

WEAR数据集是由德国西根大学创建的户外运动数据集,专注于穿戴式和自我中心活动识别。该数据集包含18名参与者在10个不同户外地点进行的总共18种不同锻炼活动的数据。数据集通过穿戴在手腕和脚踝的传感器以及头戴式摄像头收集,记录了未修剪的惯性(加速度)和摄像头(自我中心视频)数据。WEAR数据集提供了一个具有挑战性的预测场景,通过故意引入的活动变化以及跨模式的整体小信息重叠来标记。该数据集适用于评估如何结合惯性和视觉特征的方法,旨在解决户外运动中活动识别的问题。

arXiv 收录

SPIQA

SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。

arXiv 收录