five

AncientDoc

收藏
Hugging Face2025-08-14 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/yuchuan123/AncientDoc
下载链接
链接失效反馈
官方服务:
资源简介:
AncientDoc是一个包含2973页文献的综合基准数据集,这些文献约100本,分为14类,时间跨度从战国到清代。数据集支持五种任务类型:页级OCR、文言文翻译、基于推理的问答、基于知识的问答和语言变体问答。数据按朝代、类别和书写体进行了详细分布,并以图像和CSV标注的形式提供。
创建时间:
2025-08-13
原始信息汇总

AncientDoc: 中国古籍文档理解基准数据集

数据集概述

  • 目的:专为中国古籍文档理解设计的综合基准数据集
  • 特点:涵盖从OCR到知识推理的多任务评测
  • 应用方向:推动多模态大模型在古籍场景下的识别、理解与推理能力研究

基础信息

  • 数据规模:2,973页
  • 文献数量:约100本
  • 文献类型:14类(总集、楚辞体诗、诗文批评、类书、谱录等)
  • 时间跨度:从战国到清代

任务类型

  1. Page-level OCR:整页文字识别(含竖排、异体字、批注等复杂情况)
  2. Vernacular Translation:文言文到现代汉语的同语种翻译
  3. Reasoning-based QA:基于文意的隐性推理问答
  4. Knowledge-based QA:基于文本事实和背景知识的问答
  5. Linguistic Variant QA:文体、修辞与语言风格相关的问答

数据分布

朝代分布

  • 明代:1,148页
  • 清代:778页
  • 宋代:540页
  • 唐代:208页
  • 汉代:110页
  • 元代:69页
  • 南北朝:54页
  • 晋代:42页
  • 战国:24页

类别分布(Top 3)

  1. 天文与数学:238页
  2. 艺术:234页
  3. 儒学:232页

书写体分布

  • 楷书:约97%
  • 草书:约3%

数据格式

  • 提供形式:图像 + CSV标注
搜集汇总
数据集介绍
main_image_url
构建方式
在古籍数字化研究领域,AncientDoc数据集通过系统化采集战国至清代的重要文献,构建了一个多维度评测基准。研究团队精选了100本涵盖14类文献类型的古籍,采用专业数字化设备对2,973页文献进行高精度扫描,确保图像质量满足OCR需求。标注过程由古籍专家团队完成,针对竖排文本、异体字和批注等特殊排版现象进行细致标注,并设计了涵盖OCR、翻译和问答等多层次任务的专业标注体系。
特点
该数据集最显著的特征在于其历史覆盖的广度和任务设计的深度。时间跨度上囊括了从战国到清代两千余年的文献,明代文献占比最高达1,148页。内容维度包含天文数学、儒学和艺术三大主要类别,其中楷书体例占据97%的绝对多数。任务设置突破传统OCR范畴,创新性地融合了文言翻译、知识推理和语言风格分析等高级认知任务,为评估模型对古籍的深层理解能力提供了标准化的测试环境。
使用方法
研究人员可通过图像与CSV标注的对应关系开展多模态研究。每页扫描图像配有结构化标注数据,支持从字符级识别到篇章级理解的不同粒度任务。针对OCR任务可直接使用图像-文本对进行端到端训练;文言翻译任务需结合上下文语境建模;问答任务则需要综合文本内容与外部知识库。数据集按朝代和类别进行明确划分,便于开展历时语言演变或跨领域对比研究。
背景与挑战
背景概述
AncientDoc数据集作为中国古籍文档理解领域的开创性基准,由前沿研究团队于近年推出,填补了多模态大模型在古籍场景应用的研究空白。该数据集收录战国至清代跨越两千余年的2,973页珍贵文献,涵盖14类典籍类型,由百余本古籍构成多维研究素材。其核心价值在于通过OCR识别、文言翻译、知识推理等五类任务,系统性地建立了古籍智能处理的评估体系,为数字人文领域提供了关键的跨学科研究基础设施。明代文献占比38.6%的朝代分布特征,以及楷书占97%的书写体构成,深刻反映了中国古籍流传的历时性特征与物质载体规律。
当前挑战
古籍文档的数字化理解面临双重挑战:在领域问题层面,竖排文本与异体字识别对OCR技术提出更高要求,文言文与现代汉语的语义鸿沟增加了机器翻译难度,而基于古籍文意的隐性推理需要模型具备深厚的历史文化知识。数据构建过程中,研究人员需克服古籍图像质量参差不齐的物理损伤问题,处理批注与正文交织的复杂版面分析,并解决因朝代跨度导致的语言演变现象。书写体虽以楷书为主,但3%的草书样本仍对字形识别构成显著挑战,不同文献类型的专业术语体系更要求标注者具备跨学科知识储备。
常用场景
经典使用场景
在古籍数字化与智能化研究领域,AncientDoc数据集为多模态大模型提供了标准化的测试平台。其典型应用场景包括古籍页面的光学字符识别(OCR),尤其针对竖排文本、异体字和批注等复杂版面结构,研究者可通过该数据集评估模型对历史文献的转录准确率。文言文到现代汉语的自动翻译任务则检验了模型对古代汉语语义的深层理解能力。
衍生相关工作
基于AncientDoc的基准测试,学术界相继提出了CROWN(古籍专用OCR框架)、Lattice-BERT(针对异体字的预训练模型)等创新方法。其多任务评估体系还启发了跨模态古籍检索系统DocSeek的研发,相关成果在ACL、IJCAI等顶级会议形成系列研究脉络。
数据集最近研究
最新研究方向
近年来,随着数字人文和计算语言学的蓬勃发展,AncientDoc数据集在古籍智能处理领域展现出独特价值。该数据集通过整合多模态任务,为探索大语言模型在古籍OCR识别、文言文自动翻译及深度语义理解等方向提供了重要实验平台。在技术层面,研究者正着力解决竖排文本识别、异体字处理等难题,并结合知识图谱技术提升古籍问答系统的推理能力。文化保护领域则关注如何利用该数据集建立跨朝代语言演变模型,为历史文献数字化工程提供算法支持。当前研究热点集中于融合视觉与语言特征的预训练方法,以期突破传统古籍处理中语境断裂的瓶颈。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作