Chronicles-OCR
收藏Chronicles-OCR 数据集详情
数据集概述
Chronicles-OCR 是首个专门用于评估视觉大语言模型(VLLMs)在汉字完整演化轨迹(即“汉字七体”)上的跨时间视觉感知能力的综合基准数据集。数据集由安阳师范学院甲骨文信息处理教育部重点实验室和故宫博物院等顶级机构领域专家联合策划,包含 2,800 张严格平衡的图像,涵盖从龟甲到纸质书法的多样物理介质。
汉字七体
数据集涵盖汉字在 5000 多年演化过程中出现的七种规范书写形式:
- 甲骨文 — 商代刻在龟甲和兽骨上的最早成熟汉字,笔画细直、布局不标准化。
- 金文 — 商周时期铸在青铜礼器上的文字,笔画更粗更圆,结构逐渐规整。
- 篆书 — 秦统一后标准化的字体,具有明显的曲线对称性和固定结构模式。
- 隶书 — 秦汉过渡时期出现,使字形扁平并用方折笔画取代曲线,是古今汉字的分水岭。
- 楷书 — 汉魏之际确立,结构方正、笔画标准,沿用至今的正式字体。
- 草书 — 为快速书写发展,笔画连绵且常打破字界。
- 行书 — 介于楷书和草书之间的流畅易读字体。
其中前五种依次作为各时代的正式书写系统,草书和行书主要作为辅助字体。
基准统计
| 项目 | 详情 |
|---|---|
| 总图像数 | 2,800(每种字体 400 张 × 7 种字体) |
| 字体覆盖 | 全部七种汉字字体 |
| 标注 | 阶段自适应:古代字体为字符级标注,成熟字体为段落级标注 |
| 专家合作伙伴 | 安阳师范学院(甲骨文)、故宫博物院(隶书至草书) |
| 评估任务 | 4 项评估任务 |
评估任务
| 任务 | 简称 | 范围 | 评估指标 |
|---|---|---|---|
| 跨时期字符定位 | Spotting | 甲骨文、金文、篆书 | F1 @ IoU > 0.75 |
| 细粒度古文字识别 | Recognition | 甲骨文、金文、篆书 | 精确匹配准确率 |
| 古代文本解析 | Parsing | 全部七种字体 | 1 − 归一化编辑距离(Levenshtein) |
| 字体分类 | Classification | 全部七种字体 | 准确率 |
使用方法
1. 环境设置
bash git clone https://github.com/VirtualLUOUCAS/Chronicles-OCR.git cd Chronicles-OCR pip install -r requirements.txt
2. 数据下载
将基准数据放置在 data/ 目录下:
data/ ├── Chronicles_OCR.jsonl └── images/ ├── 甲骨文/ # Oracle Bone ├── 金文/ # Bronze Script ├── 篆书/ # Seal Script ├── 隶书/ # Clerical Script ├── 楷书/ # Regular Script ├── 行书/ # Running Script └── 草书/ # Cursive Script
3. 推理
bash
OpenAI 兼容 API
python infer.py --api_type openai_compat --model_name Qwen2.5-VL-7B-Instruct --base_url http://127.0.0.1:8000/v1 --api_key EMPTY --max_workers 64
本地 vLLM
python infer.py --api_type local_vllm --model_path /path/to/model --tensor_parallel_size 1 --max_model_len 32768
4. 评判(基于规则)
bash python judge.py # 所有模型 python judge.py --models model_a # 特定模型
5. 生成摘要报告
bash python summarize.py
→ judge_results/results_analysis.xlsx
引用
bibtex @misc{li2026chronicles, title={Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese Characters}, author={Gengluo Li and Shangping Peng and Xingyu Wan and Chengquan Zhang and Hao Feng and Xin Xu and Pian Wu and Bang Li and Zengmao Ding and Yongge Liu and Yipei Ye and Yang Yang and Zhan Shu and Guojun Yan and Zhe Li and Can Ma and Weiping Wang and Yu Zhou and Han Hu}, year={2026}, journal={arXiv preprint arXiv:2605.11960}, url={https://arxiv.org/abs/2605.11960}, }
致谢
数据集感谢安阳师范学院甲骨文信息处理教育部重点实验室和故宫博物院在数据来源和专家标注方面的宝贵贡献。
许可协议
本基准数据集仅供研究目的使用。




