five

Chronicles-OCR

收藏
github2026-05-14 更新2026-05-16 收录
下载链接:
https://github.com/VirtualLUOUCAS/Chronicles-OCR
下载链接
链接失效反馈
官方服务:
资源简介:
Chronicles-OCR是首个专门为评估VLLMs在汉字完整进化轨迹(汉字七体)上的跨时间视觉感知能力而设计的综合基准。该数据集由顶级机构领域专家(安阳师范学院甲骨文信息处理重点实验室和故宫博物院)合作策划,包含2800张严格平衡的图像,涵盖了高度多样化的物理媒介,从龟甲到纸质书法。数据集覆盖所有七种中文脚本,并采用阶段适应性标注:古文字为字符级,成熟脚本为段落级。

Chronicles-OCR is the first comprehensive benchmark specifically designed to evaluate the cross-temporal visual perception capabilities of VLLMs across the complete evolutionary trajectory of Chinese characters, namely the Seven Script Forms of Chinese Characters. This dataset was collaboratively curated by domain experts from top-tier institutions: the Key Laboratory of Oracle Bone Inscription Information Processing at Anyang Normal University and the Palace Museum. It contains 2,800 strictly balanced images covering a highly diverse range of physical media, spanning from oracle bones to paper-based calligraphy. The dataset encompasses all seven types of Chinese scripts, and adopts stage-adaptive annotation standards: character-level annotations for ancient scripts and paragraph-level annotations for mature scripts.
创建时间:
2026-05-12
原始信息汇总

Chronicles-OCR 数据集详情

数据集概述

Chronicles-OCR 是首个专门用于评估视觉大语言模型(VLLMs)在汉字完整演化轨迹(即“汉字七体”)上的跨时间视觉感知能力的综合基准数据集。数据集由安阳师范学院甲骨文信息处理教育部重点实验室和故宫博物院等顶级机构领域专家联合策划,包含 2,800 张严格平衡的图像,涵盖从龟甲到纸质书法的多样物理介质。

汉字七体

数据集涵盖汉字在 5000 多年演化过程中出现的七种规范书写形式:

  1. 甲骨文 — 商代刻在龟甲和兽骨上的最早成熟汉字,笔画细直、布局不标准化。
  2. 金文 — 商周时期铸在青铜礼器上的文字,笔画更粗更圆,结构逐渐规整。
  3. 篆书 — 秦统一后标准化的字体,具有明显的曲线对称性和固定结构模式。
  4. 隶书 — 秦汉过渡时期出现,使字形扁平并用方折笔画取代曲线,是古今汉字的分水岭。
  5. 楷书 — 汉魏之际确立,结构方正、笔画标准,沿用至今的正式字体。
  6. 草书 — 为快速书写发展,笔画连绵且常打破字界。
  7. 行书 — 介于楷书和草书之间的流畅易读字体。

其中前五种依次作为各时代的正式书写系统,草书和行书主要作为辅助字体。

基准统计

项目 详情
总图像数 2,800(每种字体 400 张 × 7 种字体)
字体覆盖 全部七种汉字字体
标注 阶段自适应:古代字体为字符级标注,成熟字体为段落级标注
专家合作伙伴 安阳师范学院(甲骨文)、故宫博物院(隶书至草书)
评估任务 4 项评估任务

评估任务

任务 简称 范围 评估指标
跨时期字符定位 Spotting 甲骨文、金文、篆书 F1 @ IoU > 0.75
细粒度古文字识别 Recognition 甲骨文、金文、篆书 精确匹配准确率
古代文本解析 Parsing 全部七种字体 1 − 归一化编辑距离(Levenshtein)
字体分类 Classification 全部七种字体 准确率

使用方法

1. 环境设置

bash git clone https://github.com/VirtualLUOUCAS/Chronicles-OCR.git cd Chronicles-OCR pip install -r requirements.txt

2. 数据下载

将基准数据放置在 data/ 目录下:

data/ ├── Chronicles_OCR.jsonl └── images/ ├── 甲骨文/ # Oracle Bone ├── 金文/ # Bronze Script ├── 篆书/ # Seal Script ├── 隶书/ # Clerical Script ├── 楷书/ # Regular Script ├── 行书/ # Running Script └── 草书/ # Cursive Script

3. 推理

bash

OpenAI 兼容 API

python infer.py --api_type openai_compat --model_name Qwen2.5-VL-7B-Instruct --base_url http://127.0.0.1:8000/v1 --api_key EMPTY --max_workers 64

本地 vLLM

python infer.py --api_type local_vllm --model_path /path/to/model --tensor_parallel_size 1 --max_model_len 32768

4. 评判(基于规则)

bash python judge.py # 所有模型 python judge.py --models model_a # 特定模型

5. 生成摘要报告

bash python summarize.py

→ judge_results/results_analysis.xlsx

引用

bibtex @misc{li2026chronicles, title={Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese Characters}, author={Gengluo Li and Shangping Peng and Xingyu Wan and Chengquan Zhang and Hao Feng and Xin Xu and Pian Wu and Bang Li and Zengmao Ding and Yongge Liu and Yipei Ye and Yang Yang and Zhan Shu and Guojun Yan and Zhe Li and Can Ma and Weiping Wang and Yu Zhou and Han Hu}, year={2026}, journal={arXiv preprint arXiv:2605.11960}, url={https://arxiv.org/abs/2605.11960}, }

致谢

数据集感谢安阳师范学院甲骨文信息处理教育部重点实验室和故宫博物院在数据来源和专家标注方面的宝贵贡献。

许可协议

本基准数据集仅供研究目的使用。

搜集汇总
数据集介绍
main_image_url
构建方式
在汉字跨越五千余年的漫长演变历程中,其书写形态经历了从殷商甲骨到现代楷书的多次重大变革。Chronicles-OCR数据集正是为系统评估视觉大语言模型(VLLMs)对这种跨时间形态的感知能力而构建。该数据集由安阳师范学院甲骨文信息处理教育部重点实验室与故宫博物院的权威专家联合打造,精心收录了涵盖汉字七种经典书体的2,800张严格均衡的图像,包括甲骨文、金文、篆书、隶书、楷书、行书和草书。每类书体各400张图片,素材源自龟甲、兽骨、青铜礼器、石碑、绢帛、纸张等多种物理载体。数据集采用阶段自适应的标注策略,对甲骨文、金文和篆书等古文字进行字符级精确标注,而对隶书以降的成熟书体则采用段落级标注,且所有标注均经由领域专家人工审核,确保了数据的高质量与专业性。
使用方法
该数据集的使用流程简洁高效,便于研究者快速上手评估。用户首先需克隆GitHub仓库并安装所需依赖环境,然后将从Hugging Face下载的包含图像与注释的基准数据存放至指定目录,确保目录结构符合‘data/Chronicles_OCR.jsonl’与各书体子文件夹的规范。推理阶段支持通过兼容OpenAI应用程序编程接口(API)的推理服务或本地的vLLM框架进行模型评估,用户需在配置脚本中指定模型名称、端点地址及并行工作线程数等参数。运行自动化脚本后,系统将基于预设规则进行结果判定并自动生成包含各任务、各书体详细性能指标的汇总分析报告(Excel格式),极大简化了从数据加载到结果分析的完整闭环流程。
背景与挑战
背景概述
汉字作为世界上唯一沿用至今的古老表意文字系统,其跨越五千余年的演化轨迹凝结着中华文明的智慧结晶。由安阳师范学院甲骨文信息处理教育部重点实验室与故宫博物院等顶尖机构联合构建的Chronicles-OCR数据集,于2025年首次系统性地将视觉语言模型的跨时序感知能力评估拓展至完整的'汉字七体'演进谱系。该基准精心收录了涵盖龟甲、青铜器、纸张等多样物理载体的2800幅严格均衡图像,并设计了跨时期字符定位、古文字细粒度识别、古代文本解析及书体分类四项评估任务,为探索计算机视觉模型在历时性文字形态上的理解瓶颈提供了权威标尺。
当前挑战
数据集的构建与任务设计面临双重挑战。在领域问题层面,视觉语言模型对甲骨文等古文字的识别准确率普遍低于20%,成熟书体中草书的连笔结构导致文本解析误差率高达40%以上,暴露出模型在极端字形变体与风格化书写中的感知脆弱性。在构建过程中,古文字材料的稀缺性与物理载体多样性使得图像采集需跨越博物馆、考古遗址等场景,甲骨文残片的不规则边缘与青铜器铭文的锈蚀纹理增加了标注歧义,而不同历史时期的书写规范差异要求专家团队采用分阶段适配策略——对早期文字逐字标注、对成熟书体进行段落级注释,这种多层级标注体系的协同复杂度远超传统OCR数据集。
常用场景
经典使用场景
Chronicles-OCR作为首个覆盖汉字完整演化轨迹(汉字七体)的跨时间视觉感知基准,其最经典的使用场景是系统评估视觉大语言模型(VLLMs)在甲骨文、金文、篆书、隶书、楷书、行书与草书七种字体上的综合感知能力。通过设计跨时期字符定位、细粒度古文字识别、古代文本解析与字体分类四项任务,研究者能够量化模型在面对从龟甲兽骨到纸本书法的高度多样化物理介质时的表现。该基准特别适用于检验模型在形变剧烈、笔画风格迥异的古代文字上的视觉鲁棒性与语义理解深度,为探索VLLMs在历史文献数字化中的边界提供了标准化测试平台。
解决学术问题
该数据集精准填补了现有视觉感知测评体系缺乏跨时间维度的空白,解决了学术界长期面临的古文字视觉理解评估碎片化问题。此前,甲骨文、金文等古文字研究多限于单字体辨识或孤立考古场景,缺少统一基准来比较不同模型在汉字形态演化链上的渐进式认知差异。Chronicles-OCR通过严格平衡的2800张图像与专家级分期适配标注(古文字按字符级、成熟字体按段落级),使得研究者能够系统剖析模型从象形写意到规范楷书的视觉泛化瓶颈。其发布推动了计算文字学与计算机视觉的交叉融合,为评估VLLMs在极端视觉多样性下的鲁棒性提供了关键量化工具,深刻影响了文化遗产数字化保护领域的方法论演进。
实际应用
在实际应用中,Chronicles-OCR所构建的评估范式可直接服务于历史档案自动转录、古籍数字化校勘以及博物馆藏品智能编纂等迫切需求。例如,基于该基准训练后的模型能够协助考古学家从甲骨拓片中高精度检索特定字符,或将青铜器铭文批量转换为现代文本,极大提升文物解读效率。在文化教育领域,该数据集可赋能交互式汉字演变展示系统,让学习者通过视觉识别游戏直观感受汉字形态的千年流转。此外,对于金融合同中的篆书印章核验、古籍拍卖行中的真伪鉴定等专业场景,Chronicles-OCR亦提供了从模型筛选到效果验证的可靠参考标准,展现出从学术实验室走向实际产业应用的巨大潜力。
数据集最近研究
最新研究方向
针对视觉大语言模型(VLLMs)在汉字跨时域视觉感知能力上的系统性评估,Chronicles-OCR作为首个覆盖汉字完整演化轨迹的综合性基准测试集,聚焦于七种汉字书体(甲骨文至行草书)的跨时代识别与理解。当前前沿研究方向集中于两大维度:一是探索VLLMs在高度异质物理介质(龟甲、青铜、宣纸等)下的细粒度古文字字符检测与识别能力,尤其是在甲骨文、金文、篆书等罕见书体上的零样本泛化性能;二是评估模型对隶书这一古今汉字分水岭的语义解析能力,以及行书、草书等辅助书体中连续笔触与字间边界模糊化带来的挑战。该基准揭示了现有顶尖模型(如Seed 2.0 Pro、Qwen3.5)在古文字检测(F1<50%)与识别(准确率<30%)上仍存在显著短板,而与安阳甲骨文信息处理重点实验室及故宫博物院的跨界合作,不仅推动了数字人文与AI交叉领域的发展,更对文化遗产数字化保护与汉字演化研究具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作