Fetch-A-Set (FAS)

arXiv2024-06-11 更新2024-06-21 收录

下载链接：

http://datasets.cvc.uab.es/BOEv2/BOEv2.zip

下载链接

链接失效反馈

官方服务：

资源简介：

Fetch-A-Set (FAS) 是一个专为立法历史文档分析系统设计的大型基准，旨在解决大规模历史文档检索的挑战。该数据集包含从17世纪至今的文档，总计约40万样本，来源于西班牙的立法文档，覆盖三个世纪。FAS数据集的创建过程涉及使用Mask-RCNN模型识别文档区域，并通过sentencebert编码匹配查询与OCR文本。该数据集主要应用于历史文档分析领域，特别是在文本到图像的检索任务中，旨在通过视觉洞察力提升历史文档分析的效率和准确性。

Fetch-A-Set (FAS) is a large-scale benchmark specifically designed for legislative historical document analysis systems, aiming to address the challenges of large-scale historical document retrieval. This dataset contains documents dating from the 17th century to the present, with approximately 400,000 samples in total. It is sourced from Spanish legislative documents and spans three centuries. The development of the FAS dataset involves utilizing the Mask-RCNN model to recognize document regions, and matching queries with OCR text via Sentence-BERT encoding. This dataset is primarily applied in the field of historical document analysis, particularly for text-to-image retrieval tasks, with the goal of improving the efficiency and accuracy of historical document analysis through visual insights.

提供机构：

计算机视觉中心 2 计算机科学系巴塞罗那自治大学, 加泰罗尼亚

创建时间：

2024-06-11

搜集汇总

数据集介绍

构建方式

Fetch-A-Set (FAS) 数据集的构建方式独具匠心，旨在解决历史文档检索中的大规模文档检索挑战。该数据集由西班牙官方国家公报（BOE）的历史文档组成，时间跨度从十七世纪至今，包括约一百万个人工标注的摘要和对应的文档，以及使用商业OCR系统提取的OCR文本。构建过程中，采用两步选择过程来关联查询和文档片段，首先利用Mask-RCNN模型识别相关文档区域，然后使用sentencebert编码匹配查询和OCR文本。为了提高查询-文档关联的准确性，还采用了匈牙利算法和编辑距离测量。最终，数据集被分为训练集、测试集和干扰集，以供检索系统进行评估。

特点

FAS数据集的特点在于其大规模的历史文档集合和OCR-free的特性，这使得数据集在评估文档理解系统时具有独特优势。数据集涵盖了广泛的历史时期，从十七世纪到现代，包含约四百万个文档片段。此外，FAS数据集还包含了不同程度的文档可读性，这有助于评估系统在不同条件下的性能。数据集的另一个特点是，它支持多模态检索，包括从文本到图像的主题定位和从图像到文本的信息提取，这为研究提供了更多可能性。

使用方法

FAS数据集的使用方法包括训练和评估文档理解系统。由于数据集的OCR-free特性，研究者可以避免依赖OCR结果，从而更准确地评估系统的性能。在使用FAS数据集时，研究者可以关注两个主要任务：主题定位和信息提取。对于主题定位，系统需要根据自然语言查询检索相关文档片段；对于信息提取，系统需要从给定文档片段中提取可能的文本描述。为了评估系统的性能，FAS数据集提供了两个基线：基于视觉的方法和基于OCR的方法。这些基线可以帮助研究者更好地理解系统的优势和局限性，并指导他们进行更有效的比较和改进。

背景与挑战

背景概述

在数字化浪潮席卷全球的背景下，历史文献的自动化理解成为了文化遗产管理领域的热点。Fetch-A-Set (FAS) 数据集应运而生，旨在为立法历史文献分析系统提供一个全面的基准。该数据集由 Adrià Molina、Oriol Ramos Terrades 和 Josep Lladós 等研究人员于 2024 年在加泰罗尼亚巴塞罗那自治大学计算机科学系和计算机视觉中心创建。FAS 包含了自 17 世纪以来的大量文献，为检索系统的训练和评估提供了宝贵的资源。该数据集专注于解决历史文献分析中的复杂提取任务，包括基于文本查询的文本到图像检索和从文档片段中提取图像到文本主题。FAS 的引入填补了文化遗产领域内大规模文档检索的空白，并推动了该领域的进一步研究。

当前挑战

FAS 数据集面临的挑战主要包括：1) 文献的可读性问题，由于年代久远，许多历史文献的文本已经模糊不清，这给基于文本的检索带来了困难；2) 缺乏准确的地面真实数据，这使得检索系统的评估和性能提升变得复杂；3) 多语言处理问题，历史文献中包含多种语言，增加了信息提取的难度；4) 布局和格式多样性，不同历史时期的文献在布局和格式上存在很大差异，这要求检索系统能够适应各种情况。为了应对这些挑战，FAS 数据集采用了 OCR-Free 的方法，直接从自然文本中提取相关信息，避免了 OCR 解决方案的成本和复杂性。此外，FAS 还提供了一个包含视觉和文本基线的评估框架，以促进更有效的方法比较和研究。

常用场景

经典使用场景

Fetch-A-Set (FAS) 数据集旨在为历史文档分析系统提供一个全面的基准测试，特别关注大规模历史文档检索的挑战。该数据集包含大量自十七世纪以来的文档，既可作为训练资源，也可作为检索系统的评估基准。FAS 数据集的核心使用场景包括基于文本的检索（从自然语言查询中检索相关文档图像）和基于图像的检索（从文档片段中提取文本主题），同时适应文档的可读性差异。这些场景对于文化遗产领域的研究和开发具有深远的意义，为历史文档的理解和自动化提供了强大的支持。

衍生相关工作

FAS 数据集的提出促进了多个相关领域的经典工作。例如，基于 FAS 数据集的视觉检索方法在处理低可读性文档时表现出色，为视觉检索技术在历史文档分析中的应用提供了新的思路。此外，FAS 数据集还促进了混合系统的发展，这些系统能够根据文本和视觉信息的可用性灵活地选择合适的检索方式，从而提高了检索系统的鲁棒性和准确性。FAS 数据集的这些衍生工作对于推动历史文档分析技术的发展和应用具有重要的意义。

数据集最近研究