synthetic_axa_filtered_v1.0

Hugging Face2025-03-18 更新2025-03-19 收录

下载链接：

https://huggingface.co/datasets/vidore/synthetic_axa_filtered_v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

Vidore Benchmark 2 - 世界经济报告数据集，这是一个专注于保险合同主题的视觉检索任务评估数据集，包括经过精心挑选的文档、查询、相关性判断和页面图像。共有4个文档，18个查询，260个页面和86个相关性判断，适用于评估视觉检索系统在文档图像理解方面的性能。

Vidore Benchmark 2 – World Economic Report Dataset is an evaluation dataset for visual retrieval tasks centered on insurance contract themes. It includes curated documents, queries, relevance judgments, and page images. The dataset contains 4 documents, 18 queries, 260 pages, and 86 relevance judgments, and is designed to evaluate the performance of visual retrieval systems in document image understanding.

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

synthetic_axa_filtered_v1.0数据集是Vidore Benchmark 2系列的一部分，专注于保险合同主题的视觉检索任务。该数据集通过精心筛选的文档、查询、相关性判断（qrels）以及页面图像构建而成。其结构分为四个主要部分：`docs`包含文档元数据，`corpus`包含页面级别的信息，`queries`包含查询信息，`qrels`则包含相关性判断。每个部分均通过唯一的标识符进行关联，确保了数据的一致性和完整性。

使用方法

该数据集主要用于评估视觉检索系统的性能，特别是在文档图像理解任务中的应用。用户可以通过`vidore-benchmark`命令行工具进行模型评估。首先安装相关工具包，然后使用指定模型和数据集进行测试。例如，使用ColPali模型进行评估时，可通过命令行工具加载数据集并运行测试。详细的使用方法和示例代码可参考官方文档，确保评估过程的准确性和可重复性。

背景与挑战

背景概述

synthetic_axa_filtered_v1.0数据集隶属于Vidore Benchmark 2系列，专注于保险合同主题的视觉检索任务评估。该数据集由ILLUIN Technology等机构的研究人员于2024年发布，旨在为文档图像理解领域的视觉检索系统提供基准测试。数据集包含文档、查询、相关性判断（qrels）以及页面图像，涵盖了260个页面、18个查询和86个相关性判断。其核心研究问题在于如何通过视觉语言模型高效检索文档，相关研究成果已在arXiv预印本平台发布，并得到了法国ANRT的支持。该数据集为保险领域的文档检索研究提供了重要的数据基础，推动了视觉检索技术的进一步发展。

当前挑战

synthetic_axa_filtered_v1.0数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，保险合同的视觉检索任务要求模型能够准确理解复杂的文档结构和多模态信息（文本与图像），这对模型的跨模态理解能力提出了较高要求。其次，在数据集构建过程中，研究人员需要处理大量非结构化文档数据，并确保文档图像与文本信息的精确对齐，同时还需设计合理的相关性判断标准，以支持模型的有效评估。此外，数据集规模相对较小，可能限制了模型的泛化能力，如何在有限数据下提升检索性能也是当前面临的重要挑战。

常用场景

经典使用场景

在视觉检索领域，synthetic_axa_filtered_v1.0数据集被广泛用于评估文档图像理解系统的性能。该数据集通过提供包含保险合同相关文档的图像、查询文本及相关性判断，为研究人员提供了一个标准化的测试平台。特别是在多模态检索任务中，该数据集能够有效验证模型在处理图像与文本联合检索时的表现。

解决学术问题

synthetic_axa_filtered_v1.0数据集解决了视觉检索领域中的关键问题，即如何高效地从大量文档图像中检索出与查询相关的信息。通过提供结构化的文档图像、查询文本及相关性评分，该数据集为研究多模态检索算法提供了基础支持，推动了文档图像理解技术的发展。

实际应用

在实际应用中，synthetic_axa_filtered_v1.0数据集为保险行业的文档管理系统提供了重要的技术支持。通过利用该数据集训练的模型，企业能够快速从大量合同文档中检索出与特定查询相关的页面，显著提升了文档管理的效率与准确性。

数据集最近研究