five

Oracle Bone Inscriptions Multi-modal Dataset (OBIMD)|甲骨文研究数据集|人工智能数据集

收藏
arXiv2024-07-04 更新2024-08-06 收录
甲骨文研究
人工智能
下载链接:
http://arxiv.org/abs/2407.03900v1
下载链接
链接失效反馈
资源简介:
甲骨文多模态数据集(OBIMD)由安阳师范学院甲骨文信息处理教育部重点实验室等机构创建,包含10,077件甲骨文的详细标注信息。该数据集涵盖像素级对齐的拓片和摹本,标注了检测框、字符类别、转录、对应的铭文组及阅读顺序,适用于甲骨文字符检测与识别、拓片去噪、字符匹配等多项AI研究任务。数据集的创建过程结合了自动化的字符注册算法和人工验证,确保了标注的准确性和全面性。该数据集旨在推动AI技术在甲骨文研究领域的应用,解决甲骨文解读中的难题。

The Oracle Bone Multimodal Dataset (OBIMD) was created by the Key Laboratory of Oracle Bone Information Processing at Anyang Normal University and other institutions, containing detailed annotations for 10,077 oracle bones. The dataset encompasses pixel-registered rubbings and copies, annotated with detection boxes, character categories, transcriptions, corresponding inscriptions groups, and reading order, and is suitable for a variety of AI research tasks such as oracle bone character detection and recognition, rubbing denoising, and character matching. The creation process of the dataset integrated automated character registration algorithms with manual verification to ensure the accuracy and comprehensiveness of the annotations. This dataset aims to promote the application of AI technology in the field of oracle bone research and address the challenges in the interpretation of oracle bones.
提供机构:
安阳师范学院甲骨文信息处理教育部重点实验室, 腾讯优图实验室, 厦门大学多媒体可信感知与高效计算教育部重点实验室, 腾讯可持续社会价值事业部数字文化实验室, 剑桥大学
创建时间:
2024-07-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
本研究提出了一种名为Oracle Bone Inscriptions Multi-modal Dataset (OBIMD)的多模态数据集,其构建方式主要基于对商朝时期甲骨文的数字化复制和精准标注。数据集从《甲骨文合集》中均匀采样了10,077份甲骨文拓片,并补充了《殷墟花园庄东甲骨》中的164份拓片,以保持历史时期分布的准确性。数据标注包括数字摹本、文本内容标注和字符信息三部分,其中数字摹本与拓片进行像素级对齐,文本内容标注涉及字符检测框、字符类别、转录、铭文组和阅读序列等信息,字符信息则包含子字符图像及其与主字符和转录的映射表。
使用方法
使用OBIMD数据集时,研究人员可以利用其中提供的像素级对齐的拓片和摹本,进行甲骨文字符检测、识别、去噪、匹配、生成、阅读序列预测和缺失字符补全等任务。数据集的构建考虑到了非专家的初步标注和专家的复审,确保了标注的准确性和效率。研究人员可以通过数据集中的映射表将子字符与主字符及其转录对应起来,从而在甲骨文研究中应用先进的人工智能算法。
背景与挑战
背景概述
甲骨文是中国最早的文字系统,具有极高的研究价值。然而,在当前的学术环境下,解读甲骨文的任务极具挑战性。目前仅有一半的甲骨文字符得到成功识别。因此,利用先进的AI技术协助解读甲骨文成为了一个至关重要的研究课题。本研究提出了一个名为Oracle Bone Inscriptions Multi-modal Dataset (OBIMD)的多模态数据集,该数据集包含了10,077件甲骨文的注释信息,每件甲骨文都有两种模态:像素级对齐的拓片和仿真图像。该数据集的创建和发布,将为甲骨文研究领域AI算法的应用提供重要推动。
当前挑战
甲骨文研究的挑战主要在于字符识别和注释的复杂性。构建OBIMD数据集时,研究人员面临着多方面的挑战:首先,在甲骨文的识别与分类方面,由于字符形态多变,识别准确性成为一大难题;其次,在数据集构建过程中,高质量的注释依赖于专家的知识和经验,而专家资源的稀缺性限制了注释的效率和准确性;最后,数据集的多模态特性要求在拓片与仿真图像之间进行精确对齐,这一过程的技术难度同样不容忽视。
常用场景
经典使用场景
Oracle Bone Inscriptions Multi-modal Dataset (OBIMD) 作为一种全新的、多模态的数据集,其经典使用场景主要集中于甲骨文的研究与识别。该数据集通过提供像素级对齐的拓片和摹本,以及详尽的标注信息,为甲骨文的检测、识别、去噪、字符匹配、生成、阅读序列预测以及缺失字符的补全等任务提供了丰富的训练材料和详实的信息支持。
解决学术问题
OBIMD 数据集解决了传统甲骨文研究中存在的数据单一、标注维度有限的问题。它通过多模态的标注方式,不仅包含了字符的检测框、字符类别、转录、对应的铭文组以及正确的阅读序列,还提供了字符的子图像和映射表,这些信息极大地丰富了甲骨文研究的深度和广度,为人工智能在甲骨文识别和研究中的应用提供了强有力的数据支撑。
实际应用
在实际应用中,OBIMD 数据集可被用于辅助甲骨文的研究工作,例如通过自动化识别技术提高甲骨文解读的效率,以及在数字人文领域的展览和教育中,利用数据集中的图像和转录信息,为公众提供更加生动和互动的甲骨文学习体验。
数据集最近研究
最新研究方向
甲骨文作为一种具有极高研究价值的古代文字系统,其研究领域近日迎来了一项重要进展,即Oracle Bone Inscriptions Multi-modal Dataset (OBIMD)的提出。该数据集包含了10,077件甲骨的详细标注信息,每件甲骨均具有两种模态:像素级对齐的拓片和摹本。此数据集的构建,旨在助力人工智能技术在甲骨文识别与解读中的应用,涵盖了甲骨文检测与识别、拓片去噪、字符匹配、字符生成、阅读序列预测、缺失字符补全等多项研究任务。OBIMD的发布,不仅为人工智能相关任务提供了详尽的信息和全面的训练材料,也为甲骨文研究领域的智能化发展开辟了新的可能,对推动人工智能技术在甲骨文研究中的应用具有重要意义。
相关研究论文
  • 1
    Oracle Bone Inscriptions Multi-modal Dataset安阳师范学院甲骨文信息处理教育部重点实验室, 腾讯优图实验室, 厦门大学多媒体可信感知与高效计算教育部重点实验室, 腾讯可持续社会价值事业部数字文化实验室, 剑桥大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录