PictOBI-20k

github2025-09-09 更新2025-09-10 收录

下载链接：

https://github.com/OBI-Future/PictOBI-20k

下载链接

链接失效反馈

官方服务：

资源简介：

PictOBI-20k是一个大规模数据集，旨在评估大型多模态模型（LMM）在象形甲骨文字（OBC）视觉解读任务上的表现。该数据集包含20,000个精心策划的OBC-对象图像对和超过15,000个多选问题。为了进一步评估视觉推理能力，还提供了主观注释，检查人类和LMM之间参考点的一致性。实验结果表明，虽然通用LMM表现出初步的视觉解读能力，但它们往往无法有效利用视觉信息，并受到语言先验的约束。PictOBI-20k可作为推进面向OBC的LMM视觉注意力评估和优化的基础。

PictOBI-20k is a large-scale dataset designed to evaluate the performance of large multimodal models (LMMs) on the visual interpretation task of oracle bone script pictograms (OBC). This dataset contains 20,000 carefully curated OBC-object image pairs and over 15,000 multiple-choice questions. To further assess visual reasoning capabilities, subjective annotations are also provided to examine the consistency of reference points between humans and LMMs. Experimental results show that although general-purpose LMMs exhibit preliminary visual interpretation abilities, they often fail to effectively leverage visual information and are constrained by linguistic priors. PictOBI-20k can serve as a foundation for advancing visual attention evaluation and optimization of LMMs tailored for OBC.

创建时间：

2025-09-05

原始信息汇总

PictOBI-20k 数据集概述

数据集简介

PictOBI-20k 是一个用于评估大型多模态模型在象形甲骨文字视觉解读能力的大规模基准数据集。该数据集包含 2 万个精心策划的甲骨文字-物体图像对和超过 1.5 万个多项选择题。

数据来源

甲骨文字图像：收集自 3 个甲骨文字专业网站（殷契文渊、小学堂、国学大师）和 5 个开源甲骨文字数据集（Oracle-241、Oracle-50k、HUST-OBS、OBI125、OBIdatasetIJDH）
真实物体图像：从 Freepik、Pexels、Pinterest 和中研院青铜器数据库精心收集约 4800 张图像

基准设计

构建 15,175 个多项选择题用于大型多模态模型评估
提供甲骨文字-物体图像对的人类标注参考点
涵盖多种字体外观和类别

评估模型

评估 11 个大型多模态模型，包括：

GPT-4o
Gemini 2.5 Pro
Claude 4 Sonnet
GLM-4.5V
Qwen2.5-VL 系列
InternVL3 系列

同时评估三个视觉编码器（DINOv2-L/14、CLIP-L/14、InternViT-300M）的多模态和纯视觉性能。

性能评估维度

分类任务：按甲骨文字类别的平均准确率
一致性任务：人类与大型多模态模型在 240 个甲骨文字-物体对上的视觉参考一致性
视觉编码器分析：注意力图可视化和视觉编码器直接读取的准确率

数据集状态

GitHub 仓库已于 2025 年 9 月 9 日上线
公开数据集即将发布

相关论文

Chen, Z., Hua, W., Li, J., Deng, L., Du, F., Chen, T., & Zhai, G. (2025). PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters. arXiv preprint arXiv:2509.05773.

搜集汇总

数据集介绍

构建方式

在古文字研究领域，PictOBI-20k数据集的构建采用了多源数据融合策略，从殷契文渊、小学堂、国学大师等三大甲骨文专业网站，以及Oracle-241、Oracle-50k等五个开源数据集中系统采集甲骨文字图像。对应实物图像则精选自Freepik、Pexels等专业图库与中研院青铜器数据库，最终形成涵盖12个来源的20,000组甲骨文-实物图像对。通过人工标注与多模态对齐处理，构建了15,175道多选择题用于模型评估，并创新性地引入了视觉参考点一致性标注机制。

特点

该数据集的核心特征体现在其专业性与多维评估体系上。作为首个专注于甲骨文视觉解读的大规模基准数据集，它不仅包含高精度的甲骨文字与实物图像配对，还创新性地引入了人类与模型视觉关注点的一致性标注。数据集覆盖多种甲骨文字体形态与类别，提供多选择题任务与视觉参考点热力图分析双维度评估框架，能够全面检验多模态模型在古文字视觉特征提取、跨模态对齐和注意力机制等方面的能力。

使用方法

研究人员可通过加载数据集提供的图像对与多选择题集合，对多模态模型进行端到端评估。具体实施时，首先利用甲骨文-实物图像对测试模型的视觉特征提取能力，随后通过多选择题评估其跨模态推理性能。针对视觉注意力分析，可调用附带的参考点热力图数据进行一致性比对。实验设计建议采用分层评估策略，分别从分类准确率、视觉一致性等维度量化模型性能，同时支持纯视觉编码器的分离式测试以辨析模态贡献度。

背景与挑战

背景概述

甲骨文作为中国最古老的成熟文字体系，其视觉解读一直是古文字学与数字人文领域的核心课题。PictOBI-20k数据集由上海交通大学、上海人工智能实验室等机构联合研发，于2025年正式发布，旨在构建大规模多模态模型在甲骨文字形解读领域的评估基准。该数据集涵盖2万组精心筛选的甲骨文-实物图像对及1.5万余道多选题，通过融合考古学知识与人工智能技术，为探索古文字视觉表征与现代计算机视觉的交叉研究提供了重要基础设施。

当前挑战

在领域层面，甲骨文视觉解读需克服字形抽象性、异构字体变异及古今语义断层等难题，要求模型具备跨时空的文化认知能力。构建过程中，研究团队面临多源数据整合挑战：需从8个专业数据库提取异构甲骨拓片，并匹配4800余张实物图像；同时需设计兼顾语言学准确性与机器可读性的标注体系，并通过人工标注获得视觉参考点以验证模型注意力机制与人类认知的一致性。

常用场景

经典使用场景

在古文字学与人工智能交叉领域，PictOBI-20k数据集为大规模多模态模型提供了标准化评估框架。其经典应用场景集中于对甲骨文字符的视觉解读能力测试，通过精心构建的2万组甲骨文-实物图像对及1.5万余道多选题，系统评估模型在象形文字识别、跨模态关联和视觉推理方面的表现。该数据集特别设计了参考点热力图标注，用于量化分析模型与人类在视觉注意力机制上的一致性，为探索多模态认知机制提供了重要实验平台。

衍生相关工作

基于该数据集衍生的经典工作包括多模态注意力机制优化研究，如针对甲骨文特征设计的视觉-语言对齐网络；跨时代文字演化分析系统，通过对比甲骨文与现代汉字的视觉关联揭示文字演变规律；以及文化遗产智能修复工具，利用参考点热力图指导破损甲骨文的数字化重建。这些工作显著推动了智能技术在人文领域的深度应用，形成了计算甲骨学研究的新范式。

数据集最近研究