LongHisDoc

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/qweq12433454/LongHisDoc

下载链接

链接失效反馈

官方服务：

资源简介：

LongHisDoc是一个长篇历史文档理解任务的基准数据集，包含101份历史文档，分布在10个类别中，共有1012个专家注释的问题-答案对，适用于评估LLM和LVLM模型的能力。

创建时间：

2025-05-16

原始信息汇总

LongHisDoc数据集概述

基本信息

许可证: CC BY-NC-ND 4.0 (非商业性使用，禁止演绎)
任务类别: 问答系统
语言: 中文
标签: 艺术
数据规模: 1K<n<10K

数据集内容

历史文档: 包含101份PDF格式的历史文档，涵盖10个类别
数据文件:
- 页面截图: LongHisDoc_IMG/**/*.jpg
- OCR结果: OCR_res/
- 问答对: LongHisDoc.json
标注信息: 1,012个专家标注的问答对，涵盖四种问题类型，证据来自三种模态

评估工具

使用LongHisDoc Eval Toolkit进行评估

使用限制

仅限非商业研究用途
禁止演绎(禁止修改)

搜集汇总

数据集介绍

构建方式

LongHisDoc数据集作为中文长文本历史文献理解领域的专业评测基准，其构建过程体现了严谨的学术规范。研究团队精选了涵盖10个类别的101份历史文献，通过专家标注生成了1,012个高质量问答对。数据采集不仅包含原始文献的页面截图，还提供了OCR识别结果和多模态证据来源，确保了数据源的完整性和可追溯性。这种多维度、多层次的构建方式为研究长文本理解提供了丰富的素材基础。

特点

该数据集最显著的特点在于其专业性和系统性。文献内容横跨多个历史时期和主题类别，问答对设计涵盖四种类型，并创新性地整合了文本、图像等多模态证据。数据规模控制在1K到10K之间，既保证了研究价值又具备可操作性。所有材料均经过学术级OCR处理，为研究者提供了原始文献与机器可读文本的双重参考，这种设计极大便利了跨模态研究的开展。

使用方法

使用该数据集时，研究者可通过HuggingFace平台获取完整的文献图像、OCR结果及结构化QA数据。配套提供的专用评估工具包支持对长文本理解能力的系统评测。需要注意的是，该数据集遵循CC BY-NC-ND 4.0许可协议，要求使用者严格遵守非商业用途的限制。典型应用场景包括测试模型在长文档理解、跨模态推理等方面的性能，特别适合用于评估大语言模型处理复杂历史文献的能力。

背景与挑战

背景概述

LongHisDoc数据集是专为评估大语言模型（LLMs）和长视觉语言模型（LVLMs）在长文本历史文献理解任务中的表现而设计的开创性基准。该数据集由10个类别的101份历史文献组成，包含1,012个专家标注的问答对，涵盖四种问题类型，证据来源于三种模态。历史文献的理解与研究在文化遗产保护、历史学研究等领域具有重要意义，而传统方法在处理长文本、多模态信息时存在明显局限性。LongHisDoc的创建填补了这一空白，为相关领域的研究提供了标准化评估工具。

当前挑战

LongHisDoc数据集面临的挑战主要集中在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，历史文献通常包含复杂的语言结构、古汉语表达以及多模态信息（如文字、图像和版式），这对模型的上下文理解、跨模态推理和长文本处理能力提出了极高要求。在构建过程中，数据收集面临历史文献数字化程度低、版权限制等问题；专家标注需要处理古汉语与现代汉语的语义鸿沟，确保问答对的准确性和多样性；多模态对齐则涉及文本、图像和版式信息的精确匹配，增加了数据集构建的复杂度。

常用场景

经典使用场景

在历史文献数字化与智能化处理领域，LongHisDoc数据集为研究者提供了珍贵的多模态历史文档资源。该数据集最典型的应用场景在于评估大语言模型和视觉语言模型对长篇幅历史文献的理解能力，通过专家标注的千余个跨模态问答对，系统测试模型在时间跨度大、语言风格古奥的文本中提取关键信息、推理历史事件关联性的表现。

衍生相关工作

围绕该数据集已衍生出多项标志性研究，包括基于多模态注意力机制的古文理解框架、历史事件时序推理模型等。相关成果在ACL、EMNLP等顶会形成专门研讨方向，部分团队进一步扩展出针对青铜器铭文、敦煌文献等细分领域的专项评测基准，形成数字人文技术研究的良性生态。

数据集最近研究