ICDAR17, ICDAR19

github2023-12-24 更新2024-05-31 收录

下载链接：

https://github.com/marco-peer/icdar23

下载链接

链接失效反馈

官方服务：

资源简介：

用于作者检索的历史数据集，目前是ICDAR17（80.6% mAP）和ICDAR19（93.2% mAP）数据集上作者检索的最新技术。

A historical dataset for author retrieval, currently representing the state-of-the-art in author retrieval on the ICDAR17 (80.6% mAP) and ICDAR19 (93.2% mAP) datasets.

创建时间：

2023-04-02

原始信息汇总

数据集概述

数据集名称

ICDAR2017
ICDAR2019

数据集用途

用于作者检索（Writer Retrieval）的研究，特别是在历史数据集上的应用。

数据集性能

在ICDAR17数据集上达到80.6%的mAP。
在ICDAR19数据集上达到93.2%的mAP。

数据集处理

提供四个脚本用于从文档中提取补丁（patches）。
- extract_patches_only：仅提取补丁，不进行聚类（主要用于测试集）。
- extract_patches：提取补丁并聚类其描述符（主要用于训练集）。

数据集配置

数据集的路径和配置在writer_zoo.py中定义，使用正则表达式提取标签。

数据集训练与测试

使用命令python main.py --gpuid=GPU_ID --config=config/icdar2017.yml进行训练。
测试集在配置文件中指定后执行测试。

数据集重排序

重排序需要提供一个嵌入文件（.npy），并使用命令python rerank.py --algorithm=sgr进行处理。

搜集汇总

数据集介绍

构建方式

ICDAR17和ICDAR19数据集的构建基于历史文档的书写者检索任务，采用了无监督学习方法。通过NetRVLAD和相似图重排序技术，研究者从文档图像中提取特征并进行聚类，进而生成用于训练和测试的样本。数据集的构建过程包括从文档中提取图像块（patches），并通过正则表达式提取相应的标签信息，确保数据的多样性和代表性。

使用方法

使用该数据集时，首先需通过提供的脚本从文档图像中提取图像块，并配置相应的路径和正则表达式以匹配标签信息。随后，通过运行主脚本进行模型训练和测试，支持GPU加速以提高效率。对于相似图重排序部分，用户需提供嵌入文件并运行重排序脚本，以生成优化后的检索结果。整个流程配备了详细的配置文件和命令行参数，便于用户根据需求进行调整和优化。

背景与挑战

背景概述

ICDAR17和ICDAR19数据集是文档分析与识别领域的重要基准数据集，主要用于手写文本的书写者检索任务。这些数据集由国际文档分析与识别会议（ICDAR）发布，分别于2017年和2019年推出，旨在推动历史文档的自动化分析与检索技术。Marco Peer、Florian Kleber和Robert Sablatnig等研究人员在2023年提出了一种基于NetRVLAD和相似图重排序的无监督方法，显著提升了书写者检索的性能，分别在ICDAR17和ICDAR19数据集上达到了80.6%和93.2%的平均精度（mAP）。这些数据集及其相关研究为历史文档的数字化保护和检索提供了重要技术支持，推动了文档分析领域的发展。

当前挑战

ICDAR17和ICDAR19数据集在书写者检索任务中面临多重挑战。首先，历史文档的多样性和复杂性使得书写风格的提取与匹配变得极为困难，尤其是在文档质量参差不齐的情况下。其次，数据集的构建过程中需要处理大量的手写文本图像，如何高效地提取和聚类图像特征是一个技术难点。此外，无监督学习方法虽然减少了标注成本，但在缺乏明确标签的情况下，如何准确捕捉书写者的独特风格仍是一个未完全解决的问题。最后，跨数据集的泛化能力也是当前研究的一个重要挑战，如何在不同的历史文档数据集上保持一致的性能仍需进一步探索。

常用场景

经典使用场景

ICDAR17和ICDAR19数据集在文档分析与识别领域中被广泛用于笔迹检索任务。这些数据集包含了大量历史文档的图像，研究者通过这些数据集开发了多种无监督学习方法，如NetRVLAD和相似图重排序技术，以提升笔迹检索的准确性和效率。这些方法在处理复杂的历史文档时表现出色，尤其是在多页文档和不同书写风格的识别上。

解决学术问题

ICDAR17和ICDAR19数据集解决了历史文档笔迹检索中的关键问题，如跨页笔迹一致性识别和多作者文档的区分。通过引入无监督学习方法，这些数据集显著提升了笔迹检索的平均精度（mAP），在ICDAR17上达到了80.6%，在ICDAR19上更是达到了93.2%。这一进展为历史文档的数字化和自动化分析提供了强有力的技术支持。

实际应用

在实际应用中，ICDAR17和ICDAR19数据集被广泛应用于档案馆、图书馆和博物馆的数字化项目中。通过笔迹检索技术，这些机构能够快速识别和分类大量历史文档，极大地提高了文档管理的效率。此外，这些数据集还被用于司法鉴定领域，帮助识别和比对手写证据，为案件侦破提供了重要线索。

数据集最近研究