DOCTRACK

Name: DOCTRACK
Creator: 上海大学计算机工程与科学学院
Published: 2023-10-23 18:58:09
License: 暂无描述

arXiv2023-10-23 更新2024-06-21 收录

下载链接：

https://github.com/hint-lab/doctrack

下载链接

链接失效反馈

官方服务：

资源简介：

DOCTRACK是由上海大学计算机工程与科学学院创建的一个视觉丰富文档（VRD）数据集，旨在通过眼动追踪技术模拟人类阅读顺序。该数据集包含409个样本，涵盖多种文档类型，如表格、图表和图形，用于研究机器阅读VRD的挑战。数据集的创建过程涉及从现有数据集中随机选择文档，并通过眼动追踪实验收集人类阅读顺序数据。DOCTRACK的应用领域主要集中在改进文档AI模型，以更准确、连续和灵活地阅读VRD，解决现有模型在处理复杂文档结构时的局限性。

DOCTRACK is a visually rich document (VRD) dataset created by the School of Computer Engineering and Science, Shanghai University. It aims to simulate human reading sequences via eye-tracking technology. This dataset contains 409 samples covering various document types such as tables, charts and graphics, and is used to study the challenges of machine reading of VRDs. The dataset creation process involves randomly selecting documents from existing datasets and collecting human reading sequence data through eye-tracking experiments. The application scenarios of DOCTRACK mainly focus on improving document AI models to read VRDs more accurately, continuously and flexibly, so as to address the limitations of existing models when dealing with complex document structures.

提供机构：

上海大学计算机工程与科学学院

创建时间：

2023-10-23

搜集汇总

数据集介绍

构建方式

在视觉丰富文档理解领域，DOCTRACK数据集的构建采用了眼动追踪技术，以精准捕捉人类阅读过程中的视觉轨迹。研究团队从FUNSD、SeaBill和Infographic等公开数据集中随机选取文档，涵盖弱结构化、表格化及信息图表等多种类型。通过Tobii眼动仪记录参与者的注视点与扫视路径，并经过数据清洗与对齐处理，将原始眼动数据与OCR输出的文本边界框进行匹配，最终形成与人类阅读顺序高度一致的多模态标注数据。

特点

DOCTRACK的核心特点在于其首次将人类眼动信息与视觉丰富文档的机器理解任务相结合，提供了真实反映阅读行为的序列标注。数据集包含三种文档子集，分别对应正常Z型、局部优先、跨模态交互及视觉引导等四种阅读模式，展现了人类在处理复杂布局时的认知多样性。此外，数据集中每个文档均配备文本、位置及图像等多模态特征，为探索阅读顺序对文档理解的影响提供了丰富的研究基础。

使用方法

该数据集主要用于评估阅读顺序在文档理解任务中的作用，支持语义实体识别和文档问答等下游任务。研究者可通过预排序流程，将OCR输出的原始序列按照眼动数据或规则生成的重排序序列进行调整，进而输入至LayoutLM等多模态模型进行训练与测试。数据集中提供的人类阅读顺序与多种机器生成顺序的对比，有助于分析不同顺序对模型性能的影响，推动文档智能模型向更人性化的阅读机制发展。

背景与挑战

背景概述

在信息技术的持续演进中，视觉丰富文档（VRDs）的广泛应用催生了文档人工智能模型的迫切需求，旨在模拟人类阅读与理解文档的能力。DOCTRACK数据集由上海大学、京都大学及上海交通大学的研究团队于2023年联合创建，其核心研究问题聚焦于如何将人类眼动信息与机器阅读顺序对齐，以克服文档理解中的技术、语言与认知障碍。该数据集通过眼动追踪技术采集真实人类阅读轨迹，为探索多模态文档理解提供了首个与人类眼动信息严格对齐的基准数据，显著推动了文档人工智能领域向更人性化、精准化的方向发展。

当前挑战

DOCTRACK数据集致力于解决视觉丰富文档理解中阅读顺序生成的挑战，即如何使机器阅读顺序逼近人类自然眼动模式，以提升文档实体识别与问答等下游任务性能。在构建过程中，研究团队面临多重困难：眼动数据的采集需处理高采样频率导致的轨迹噪声与缺失注视点，且需通过后处理技术校正外围视觉偏差；同时，数据标注成本高昂，难以实现大规模多标注者协同，限制了内部一致性评估。此外，数据整合涉及多样文档类型（如表格、信息图），需平衡不同模态特征对阅读顺序的影响，确保生成顺序的鲁棒性与泛化能力。

常用场景

经典使用场景

在文档智能领域，DOCTRACK数据集的核心应用场景在于探索人类阅读顺序对机器理解视觉丰富文档的影响。该数据集通过眼动追踪技术精确捕捉人类阅读时的视觉轨迹，为研究者提供了真实的人类阅读顺序数据。这使得模型能够模拟人类阅读行为，优化文档AI系统的输入序列，从而提升对表格、图表等复杂布局文档的理解能力。经典使用中，DOCTRACK常用于评估不同阅读顺序生成方法在语义实体识别和文档问答任务中的表现，为文档理解模型的优化提供实证基础。

解决学术问题

DOCTRACK数据集主要解决了文档AI研究中机器与人类阅读模式脱节的核心问题。传统文档AI模型依赖OCR工具生成的简单序列输入，忽略了人类阅读时基于空间结构和视觉线索的动态顺序，导致模型在处理视觉丰富文档时性能受限。该数据集通过提供与人类眼动信息对齐的标注数据，使研究者能够系统分析阅读顺序对下游任务的影响，并探索多模态特征融合的有效性。其意义在于推动了文档理解从单纯文本分析向认知对齐的转变，为构建更智能、人性化的文档处理系统奠定了数据基础。

衍生相关工作

DOCTRACK数据集衍生了一系列围绕阅读顺序生成和文档理解的经典研究工作。基于其多模态对齐特性，研究者提出了多种预排序方法，如结合文本、位置和视觉特征的原子比较模型，这些模型被集成到LayoutLM系列等文档AI架构中，以优化输入序列。同时，该数据集激发了关于规则排序与人类眼动顺序对比的深入分析，推动了Z-pattern等启发式方法的改进。相关研究还扩展到文档问答和实体识别任务中，探索不同排序策略对模型性能的影响，为文档智能领域的算法创新提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集