five

OBI-Bench|甲骨文处理数据集|多模态模型评估数据集

收藏
github2024-12-04 更新2024-12-06 收录
甲骨文处理
多模态模型评估
下载链接:
https://github.com/zijianchen98/OBI-Bench
下载链接
链接失效反馈
资源简介:
OBI-Bench是一个旨在评估大型多模态模型(LMMs)是否能辅助甲骨文处理任务的基准数据集。它包含五个任务:甲骨文字符识别、碎片文本重组、字符分类、图像检索和甲骨文解读。数据集收集了来自11个不同来源的5,523张甲骨文图像,并提出了原始甲骨文识别(O2BR)数据集和甲骨文重组(OBI-rejoin)数据集。
创建时间:
2024-12-02
原始信息汇总

OBI-Bench 数据集概述

概述

OBI-Bench 是一个应用于甲骨文研究的开放数据集,旨在通过大型多模态模型(LMMs)来辅助古代文字的研究。数据集包含五个主要任务:

  1. 识别:从原始甲骨或拓片中定位密集的甲骨文文字。
  2. 重组:将碎片化的文本片段重构为连贯的文本。
  3. 分类:将单个字符分类为其对应的含义。
  4. 检索:根据给定的甲骨文图像返回相关结果。
  5. 解译:解释甲骨文以进行历史和文化研究。

数据集发布

  • 发布时间:2024年12月2日
  • GitHub仓库OBI-Bench

数据集来源

数据集收集了来自11个不同来源的5,523张甲骨文图像。由于缺乏公开的甲骨文识别和重组数据集,数据集提出了**原始甲骨识别(O2BR)数据集和甲骨文重组(OBI-rejoin)**数据集。

基准模型

数据集选择了23个最新的主流LMMs进行评估,包括6个专有LMMs和17个开源LMMs。

性能基准

数据集提供了五个任务的性能基准结果,包括:

  • 识别任务
  • 重组任务
  • 分类任务
  • 检索任务
  • 解译任务

数据集待发布

  • 原始甲骨识别(O2BR)数据集:即将发布
  • 甲骨文重组(OBI-rejoin)数据集:即将发布

联系信息

  • 作者:Zijian Chen
  • 邮箱:zijian.chen@sjtu.edu.cn

引用

@misc{chen2024obibench, title={OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?}, author={Zijian Chen and Tingzhu Chen and Wenjun Zhang and Guangtao Zhai}, year={2024}, eprint={2412.01175}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.01175}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
OBI-Bench数据集的构建基于对甲骨文(Oracle Bone Inscriptions, OBI)的深入研究,汇集了来自11个不同来源的5,523张OBI图像。该数据集旨在解决甲骨文研究中的五个关键任务:识别、重组、分类、检索和解译。为了填补现有数据集的空白,研究团队特别创建了原始甲骨文识别(O2BR)数据集和OBI-rejoin数据集,以支持这些任务的实现。
特点
OBI-Bench数据集的显著特点在于其多任务导向的设计,涵盖了甲骨文研究的多个阶段,从图像识别到文本重组,再到字符分类和历史解译。此外,该数据集还包含了多种字体和风格的甲骨文图像,确保了数据的多样性和广泛性。通过引入大型多模态模型(LMMs),OBI-Bench为考古学和古文字学研究提供了新的工具和方法。
使用方法
使用OBI-Bench数据集时,研究者可以针对五个主要任务进行模型训练和评估,包括甲骨文图像的识别、碎片文本的重组、字符的分类、基于图像的检索以及历史文化的解译。数据集提供了详细的图像来源和标注信息,便于研究者进行数据预处理和模型开发。此外,数据集还提供了多个基准模型和评估结果,供研究者参考和比较。
背景与挑战
背景概述
OBI-Bench数据集由上海交通大学的Zijian Chen、Tingzhu Chen、Wenjun Zhang和Guangtao Zhai等研究人员于2024年创建,旨在探索大型多模态模型(LMMs)在甲骨文研究中的应用。该数据集是首次尝试将LMMs应用于古文字学和考古学领域,旨在通过五个具体任务——识别、重组、分类、检索和解读,来解决甲骨文研究中的关键问题。这一创新不仅推动了人工智能技术在文化遗产保护中的应用,也为古文字学研究提供了新的工具和方法。
当前挑战
OBI-Bench数据集在构建过程中面临多重挑战。首先,由于公开的甲骨文识别数据集稀缺,研究人员不得不自行收集和创建原始甲骨文识别(O2BR)数据集和甲骨文重组(OBI-rejoin)数据集。其次,甲骨文的多阶段字体变化和复杂性增加了分类和解读任务的难度。此外,如何有效评估和比较不同LMMs在甲骨文任务中的表现,也是一个重要的研究挑战。这些挑战不仅涉及技术层面的算法优化,还包括对甲骨文历史和文化背景的深入理解。
常用场景
经典使用场景
在古文字学与考古学领域,OBI-Bench数据集的经典使用场景主要集中在甲骨文的研究与分析。该数据集通过提供甲骨文图像及其相关任务,如识别、拼接、分类、检索和解译,为学者们提供了一个系统化的工具。这些任务不仅有助于自动化处理大量甲骨文数据,还能辅助研究人员在历史和文化研究中更深入地理解甲骨文的含义和背景。
解决学术问题
OBI-Bench数据集解决了古文字学研究中长期存在的数据处理难题。传统上,甲骨文的识别和解译依赖于人工,效率低下且易出错。该数据集通过引入大规模多模态模型,显著提升了甲骨文处理的自动化水平,从而加速了学术研究的进程。此外,数据集的多任务设计使得研究人员能够更全面地探索甲骨文的各个方面,为古文字学研究提供了新的视角和方法。
衍生相关工作
OBI-Bench数据集的发布激发了大量相关研究工作。许多学者和研究团队基于该数据集开发了新的算法和模型,以进一步提升甲骨文处理的精度和效率。例如,有研究者利用数据集中的图像数据进行深度学习模型的训练,取得了显著的识别和分类效果。此外,数据集的多任务设计也为跨学科研究提供了丰富的资源,促进了人工智能与古文字学的深度融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录