five

AncientDoc

收藏
arXiv2025-09-10 更新2025-11-24 收录
下载链接:
https://hf-mirror.com/datasets/yuchuan123/AncientDoc
下载链接
链接失效反馈
官方服务:
资源简介:
AncientDoc 是一个用于评估视觉语言模型在中文古籍上的能力的基准数据集。它包括五个任务:页面级OCR、白话文翻译、基于推理的问答、基于知识的问答和语言变体问答。数据集覆盖了14种类型的古籍,超过100本书,共约3000页。数据集来源于哈佛图书馆的数字化资源,并结合了大型语言模型的预标注和人工校对,旨在全面评估视觉语言模型在中文古籍上的OCR和语义理解能力。

AncientDoc is a benchmark dataset for evaluating the capabilities of vision-language models (VLMs) on Chinese ancient documents. It comprises five tasks: page-level OCR, vernacular translation, reasoning-based question answering, knowledge-based question answering, and language variant question answering. The dataset covers 14 types of ancient documents, over 100 books, and totals approximately 3,000 pages. Sourced from the digital resources of Harvard Library, it incorporates pre-annotations generated by large language models and manual proofreading, and is designed to comprehensively evaluate the OCR and semantic understanding capabilities of VLMs on Chinese ancient documents.
提供机构:
复旦大学, 字节跳动
创建时间:
2025-09-10
搜集汇总
数据集介绍
main_image_url
构建方式
在古籍数字化浪潮中,AncientDoc数据集通过多阶段流程构建而成。研究团队从哈佛图书馆数字化馆藏中精选了涵盖14种文献类型的古籍图像,包括文集、楚辞体诗歌、诗文评等类别,时间跨度从战国至明清。采用大语言模型预标注与人工校对相结合的标注策略,首先利用Qwen2.5-VL-72B模型为每页古籍图像生成符合五大任务要求的问答对,随后由专业人员进行全面审核与修订,确保OCR结构校正、翻译质量提升及多任务一致性的严格把控。
使用方法
研究者在应用AncientDoc时需遵循系统化评估流程。针对页面级OCR任务采用字符错误率、字符精确率、召回率和F1值四项指标;其余四个理解类任务则结合CHRF++和BERTScore进行自动评估。考虑到硬性指标的局限性,额外引入经过人工对齐的大语言模型GPT-4o进行0-10分量表评分,该模型在多项一致性指标中与人类评分最为接近。评估时需注意不同任务的特点,如白话翻译结果的多样性要求评分时保持适当宽容度,而知识问答则更注重事实准确性。
背景与挑战
背景概述
AncientDoc数据集由复旦大学与字节跳动联合团队于2025年创建,旨在填补古籍文献智能理解领域的评估空白。该数据集聚焦于中文古籍的多模态理解,涵盖从战国至明清14类文献体裁,包含3000余页图像数据。其核心研究问题在于突破传统OCR技术的局限,推动视觉语言模型在古籍文字识别、语义翻译及知识推理等深层认知任务中的发展,为文化遗产的数字化保护与智能研究奠定基础。
当前挑战
该数据集面临的领域挑战包括古籍文字的视觉复杂性(如竖排排版、异体字与注疏混杂)与语言特殊性(如文言文多义性与无标点结构),需实现从字符识别到知识推理的跨层次理解。构建过程中,团队需克服标注质量保障的难题,包括对生僻字的准确转录、文言到现代汉语的语义对齐,以及跨任务数据一致性的校验,这些均依赖大模型预标注与人工校对的协同作业。
常用场景
经典使用场景
在古籍数字化与智能理解领域,AncientDoc数据集作为首个系统评估视觉语言模型处理中文古籍能力的基准,其经典应用场景聚焦于从光学字符识别到知识推理的多层次任务验证。该数据集通过整合页面级OCR、文言翻译、推理问答、知识问答及语言变体问答五大任务,为模型在复杂古籍图像中的文本提取、语义转换和深层逻辑分析提供了标准化测试平台。
解决学术问题
AncientDoc有效解决了古籍智能处理中三大核心学术问题:一是填补了现有基准在中文古籍多模态理解评估上的空白,突破了传统数据集仅针对现代印刷体或英文文档的局限;二是通过融合视觉复杂性(如竖排排版、异体字)与语言特殊性(如无标点文言文),推动了模型在跨模态语义对齐和历史文化知识迁移方面的理论创新;三是为OCR-free范式下的古籍深度理解建立了可量化的评估体系,促进了文档智能与计算人文的交叉研究。
实际应用
该数据集的实际应用价值体现在文化遗产保护的数字化转型中。图书馆与博物馆可利用其评估模型对古籍图像的自动转录精度,支撑大规模文献数字化工程;教育机构借助文言翻译任务输出可辅助人文课程教学;知识问答功能则能为历史研究提供智能检索支持,例如快速提取医籍中的药方术语或史书中的典章制度。这些应用显著降低了古籍解读的专业门槛,加速了人文知识的普惠化传播。
数据集最近研究
最新研究方向
在古籍数字化与文化遗产保护领域,AncientDoc数据集的推出标志着视觉语言模型在中文古籍处理方面的研究迈入新阶段。该数据集聚焦于从光学字符识别到知识推理的多层次任务评估,涵盖了页面级OCR、白话翻译、推理问答、知识问答及语言变体问答五大前沿方向。当前研究热点集中于提升模型对繁体字、竖排文本及复杂版式的理解能力,同时探索跨朝代、跨文体的语义迁移与知识挖掘。这一进展不仅推动了古籍智能化解读的技术边界,也为历史文献的自动化分析与文化传承提供了重要支撑,具有深远的学术价值与社会意义。
相关研究论文
  • 1
    通过复旦大学, 字节跳动 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作