ByteDance/AncientDoc
收藏Hugging Face2025-09-08 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/ByteDance/AncientDoc
下载链接
链接失效反馈官方服务:
资源简介:
AncientDoc是一个专为中文古籍文档理解设计的全面基准数据集。它包含从OCR到知识推理的多任务评估,旨在推动多模态大型模型在古籍场景下的识别、理解和推理能力的研究。数据集包含2973页文献,涵盖从战国时期到清朝的多个重要历史时期,分为14类文献类型。任务类型包括页面级OCR、文言文翻译、基于推理的问答、基于知识的问答和语言变体问答。
AncientDoc is the first comprehensive benchmark dataset specifically designed for Chinese Ancient Document Understanding. It covers multi-task evaluation ranging from OCR to knowledge reasoning, aiming to promote research on the recognition, understanding, and reasoning capabilities of multimodal large models in the scenario of ancient documents. The dataset contains 2,973 pages of literature, spanning from the Warring States period to the Qing Dynasty, divided into 14 categories of literature types. Task types include page-level OCR, vernacular translation, reasoning-based QA, knowledge-based QA, and linguistic variant QA.
提供机构:
ByteDance
搜集汇总
数据集介绍

构建方式
在古籍数字化研究领域,AncientDoc数据集的构建体现了系统性与严谨性。该数据集从战国至清代跨越多个重要历史时期,精选约百部古籍文献,涵盖文集、楚辞体、诗文评、类书、目录等十四种文献类型,总计2,973页。构建过程首先对古籍图像进行高质量数字化采集,随后通过专业标注团队对全页文本进行精细标注,包括复杂场景下的竖排排版、异体字及批注识别。标注内容不仅涵盖页面级OCR文本,还延伸至文言文白话翻译、基于文本含义的隐含推理问答、基于文本事实与背景知识的知识问答,以及与文学体裁、修辞、语言风格相关的语言变体问答,形成了多层次、多任务的结构化标注体系。
使用方法
为促进多模态大模型在古籍场景下的能力评估,AncientDoc数据集以“图像+CSV标注”的形式提供。研究者可依据CSV文件中的结构化标注,针对五大任务类型进行模型训练与评估:页面级OCR任务需模型对全页图像进行端到端文本识别;白话翻译任务要求模型将输入的文言文片段转化为现代汉语;推理型与知识型问答任务则分别测试模型对文本隐含逻辑的推断能力以及对明确事实的提取与关联能力;语言变体问答则聚焦于文学风格与修辞的识别。该数据集支持端到端或分阶段的研究范式,是评测与提升模型在复杂古籍文档环境下综合理解能力的有效工具。
背景与挑战
背景概述
在数字人文与古籍保护研究领域,对中文古籍的自动化理解一直是学术探索的前沿课题。字节跳动公司于近年推出的AncientDoc数据集,作为首个专为中文古籍理解设计的综合性基准,标志着该领域从传统文献学向多模态人工智能应用的重要跨越。该数据集由研究团队精心构建,涵盖了从战国至清代跨越两千余年的文献资料,包含近三千页图像及约百部典籍,旨在系统评估模型在古籍OCR、文言翻译及知识推理等多重任务上的性能。其核心研究问题聚焦于如何利用先进的计算模型破解古籍中复杂的排版、异体字与文言语义障碍,从而为文化遗产的数字化保存与智能解析提供关键技术支撑,对推动历史文献学、语言学及人工智能的交叉融合产生了深远影响。
当前挑战
AncientDoc数据集所应对的领域挑战,主要在于中文古籍理解中固有的复杂性:古籍常采用竖排版式、异体字及注疏并存,对光学字符识别(OCR)的准确性构成严峻考验;文言文与现代汉语间的语义鸿沟,使得机器翻译任务需兼顾语言风格与历史语境;而基于文本的推理与知识问答,则要求模型具备深厚的文史知识储备与逻辑推断能力。在数据集构建过程中,研究者亦面临多重困难:古籍图像质量参差不齐,需进行大量修复与标准化处理;文献跨代久远、类别繁多,标注工作依赖领域专家,成本高昂且易引入主观偏差;此外,如何平衡各朝代、文类及任务的数据分布,以确保评估的全面性与公正性,亦是构建中的关键难题。
常用场景
经典使用场景
在古籍数字化与智能理解领域,AncientDoc数据集为多模态大模型提供了系统性的评估基准。其经典使用场景聚焦于对中文古籍文档的全面解析,涵盖从页面级光学字符识别到知识推理的多层次任务。研究者可借助该数据集,训练模型处理竖排排版、异体字及注释等复杂版面,同时完成文言文到现代汉语的语内翻译,并基于文本语义进行隐含推理与事实问答,从而系统检验模型在古籍场景下的综合认知能力。
解决学术问题
该数据集有效应对了古籍智能处理中的若干核心学术挑战。它通过提供跨朝代、多文类的标注数据,解决了古籍OCR因字体变异、版面复杂导致的识别精度不足问题;其文言翻译任务推动了古汉语到现代汉语的自动转换研究;而推理与知识问答任务则促进了模型对古籍深层语义与历史背景的理解,弥补了以往数据集在古籍深度理解与知识推理方面的空白,为古籍数字化研究提供了标准化评估体系。
实际应用
在实际应用层面,AncientDoc为文化遗产的数字化保存与活化利用提供了技术支撑。其可直接应用于图书馆、博物馆的古籍档案自动化录入与检索系统,提升文献数字化效率;在教育领域,支持开发智能古籍阅读辅助工具,帮助学生理解文言文;在学术研究方面,能为历史、文学研究者提供文献内容的结构化分析与知识发现服务,促进人文研究与人工智能技术的交叉融合。
数据集最近研究
最新研究方向
在古籍数字化与文化遗产保护领域,AncientDoc数据集的推出为中文古籍智能理解设立了首个综合性基准。该数据集聚焦于从光学字符识别到知识推理的多任务评估,近期研究前沿主要围绕多模态大模型在古籍场景下的深度应用展开。学者们正致力于利用该数据集训练模型以精准识别竖排排版、异体字及批注等复杂文本形态,同时探索文言文到现代汉语的语内翻译机制,以提升古籍内容的可及性。在知识推理方面,研究热点集中于基于文本语义的隐式推理问答,以及结合历史背景知识的显式事实问答,旨在挖掘古籍中蕴含的文学体裁、修辞手法等语言学变异信息。这些研究方向不仅推动了人工智能在古籍处理中的技术进步,也为历史文献的自动化整理、数字化保存及跨时代知识传播提供了关键支撑,具有深远的学术与文化意义。
以上内容由遇见数据集搜集并总结生成



