DongbaMIE
收藏arXiv2025-03-06 更新2025-03-07 收录
下载链接:
https://github.com/thinklis/DongbaMIE
下载链接
链接失效反馈官方服务:
资源简介:
DongbaMIE数据集是由中央民族大学信息工程学院构建的多模态信息提取数据集,包含东巴象形文字图像及其对应的中文语义注释。该数据集基于《纳西东巴古籍标注集》构建,含有23,530个句子级别的图像和2,539个段落级别的图像,涵盖物体、动作、关系和属性四个语义维度。该数据集为 endangered ancient Dongba pictographs 提供了详细的实体、关系、动作和属性注释,以捕捉其语义丰富性。
The DongbaMIE dataset is a multimodal information extraction dataset developed by the School of Information Engineering, Minzu University of China. Built upon the *Naxi Dongba Ancient Manuscript Annotation Collection*, it contains 23,530 sentence-level images and 2,539 paragraph-level images of Dongba pictographs, along with their corresponding Chinese semantic annotations. The dataset covers four core semantic dimensions: objects, actions, relations, and attributes. It provides detailed annotations for entities, relations, actions and attributes of these endangered ancient Dongba pictographs, to capture their rich semantic connotations.
提供机构:
中央民族大学信息工程学院
创建时间:
2025-03-06
搜集汇总
数据集介绍

构建方式
DongbaMIE数据集的构建基于纳西东巴古籍的数字化图像和相应的中文语义标注。首先,采用高保真扫描技术对古籍页面进行扫描,同时保留原始手写特征和空间布局。接着,利用东巴文独特的标点符号进行结构分割,将段落级图像分割为句子级图像。最后,通过结合光学字符识别(OCR)和专家辅助自动流程,将每个段落级和句子级图像与其对应的中文翻译进行配对,实现跨模态对齐。这种构建方式确保了数据集的多样性和准确性,为后续的语义理解和信息提取研究提供了宝贵资源。
特点
DongbaMIE数据集具有以下几个显著特点:1)包含丰富的语义维度,包括对象、动作、关系和属性,全面覆盖了东巴文的主要语义元素;2)数据集规模庞大,包含23,530个句子级图像和2,539个段落级图像,为模型训练提供了充足的样本;3)采用混合标注流程,结合自动提取和严格的人工审查,保证了标注的准确性和一致性;4)数据集以开源形式发布,遵循严格的文化保护指南,促进了文化遗产的传播和保护。
使用方法
DongbaMIE数据集可用于多种研究目的,包括但不限于:1)评估大型多模态模型在东巴文语义理解和信息提取任务上的性能;2)开发新的信息提取算法和模型,以提高对东巴文复杂语义信息的识别能力;3)进行东巴文语义分析,深入研究其语法结构和语义特征;4)支持东巴文数字保护和传承,促进文化遗产的保护和发展。用户可以通过访问数据集的官方网站或相关研究论文,获取数据集的详细信息和下载链接。
背景与挑战
背景概述
东巴象形文字是纳西族文化的重要组成部分,其符号承载着丰富的文化和语境信息。由于缺乏相关数据集,现有研究在东巴象形文字的语义理解方面存在困难。为了解决这一问题,研究人员提出了DongbaMIE数据集,这是第一个用于东巴象形文字语义理解和提取的多模态数据集。该数据集由东巴象形文字图像及其相应的中文语义注释组成,包含23,530个句子级别和2,539个段落级别的图像,涵盖了四个语义维度:对象、动作、关系和属性。通过对GPT-4o、Gemini-2.0和Qwen2-VL模型的系统评估,实验结果表明,当前的大型多模态模型在准确识别东巴象形文字中的多样化语义信息方面仍面临重大挑战。该数据集的构建为研究东巴象形文字的语义理解提供了宝贵资源,对于推动相关领域的研究和应用具有重要意义。
当前挑战
东巴象形文字的数字保存和处理面临着严峻的挑战。首先,由于能够理解东巴象形文字的人数非常有限,只有少数纳西族东巴能够阅读这种文字,这使得相关的现代语言注释资源极其稀缺。其次,东巴象形文字缺乏标准化的编码系统,其语法结构与现代语言也存在显著差异。这使得无法像处理常规文本那样处理它。这些因素使得传统的自然语言处理方法难以应用于东巴象形文字的处理,进一步加剧了现代注释语料库的严重短缺。因此,构建基于东巴象形文字的多模态语义理解数据集尤为重要,这将为进一步研究和应用提供有价值的资源。然而,东巴象形文字具有独特的语言现象,包括上下文中象形文字的省略和多义词的出现,这些特点进一步增加了通过计算进行解密和保存这些濒危文本的难度。此外,当前的大型多模态模型在准确识别东巴象形文字中的多样化语义信息方面仍面临重大挑战。
常用场景
经典使用场景
DongbaMIE数据集主要用于评估和提升对东巴象形文字的语义理解和提取能力。该数据集包含了丰富的文化背景和语境信息,对于理解东巴文字的深层含义具有重要意义。通过使用DongbaMIE数据集,研究者可以训练和评估模型在对象、动作、关系和属性等四个语义维度上的提取性能,从而推动东巴文字的数字化保护和传承。
衍生相关工作
DongbaMIE数据集的发布推动了相关领域的研究进展。基于DongbaMIE数据集,研究者可以进一步探索多模态信息提取技术在东巴文字处理中的应用,以及如何改进模型在细粒度语义理解方面的性能。此外,DongbaMIE数据集还可以为其他古代和濒危文字的处理提供参考和借鉴,促进相关领域的研究和应用。
数据集最近研究
最新研究方向
DongbaMIE数据集的提出,旨在解决东巴文语义理解研究的难题,它为东巴文的多模态信息提取提供了宝贵的资源。该数据集涵盖了23,530个句子级和2,539个段落级的东巴文图像,并包含对象、动作、关系和属性四个语义维度的中文语义标注。通过评估GPT-4o、Gemini-2.0和Qwen2-VL模型,研究发现,这些模型在东巴文信息提取方面仍面临重大挑战。未来的研究方向可能包括扩展数据集的标注,使其更加精细化,同时提升多模态表示能力,以更有效地提取东巴文信息。此外,结合其他模态的数据,如音频、视频或深度图像,可能为模型提供更多的上下文信息,从而增强整体的多模态理解能力。
相关研究论文
- 1DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms中国民族大学信息与工程学院,北京,中国;清华大学计算机科学与技术系,北京,中国;清华大学人工智能研究院,北京,中国 · 2025年
以上内容由遇见数据集搜集并总结生成



