five

vdr-multilingual-test

收藏
魔搭社区2025-12-05 更新2025-01-25 收录
下载链接:
https://modelscope.cn/datasets/llamaindex/vdr-multilingual-test
下载链接
链接失效反馈
官方服务:
资源简介:
# Multilingual Visual Document Retrieval Benchmarks ![](benchmark_cover.png) This dataset consists of 15 different benchmarks used to initially evaluate the [vdr-2b-multi-v1](https://huggingface.co/llamaindex/vdr-2b-multi-v1) multimodal retrieval embedding model. These benchmarks allow the testing of multilingual, multimodal retrieval capabilities on text-only, visual-only and mixed page screenshots. Each language subset contains queries and images in that language and is divided into three different categories by the "pagetype" column. Each category contains 1000 images and 100 queries. Each query in this dataset has been manually evaluated, curated and enhanced to ensure high data quality. | **Category** | **Description** | **N# Queries** | **N# Images** | |--------------|----------------------------------------------------|----------------|---------------| | text | text-only document pages | 100 | 1000 | | visual | visual-only document pages or slides | 100 | 1000 | | mix | document pages with mixed visual and text elements | 100 | 1000 | The domains and topics covered in each category are broad and diverse. The main purpose of this benchmark is to test retrieval capabilities on specific document types, regardless of their domain.

# 多语言视觉文档检索基准数据集 ![基准数据集封面图](benchmark_cover.png) 本数据集包含15个不同的基准测试任务,用于初始评估[vdr-2b-multi-v1](https://huggingface.co/llamaindex/vdr-2b-multi-v1)多模态检索嵌入模型。这些基准测试可用于在纯文本、纯视觉以及混合页面截图场景下测试多语言多模态检索能力。 每个语言子集均包含对应语言的查询与图像,并通过"pagetype"列划分为三种不同类别。每一类均包含1000张图像与100条查询。本数据集中的每条查询均经过人工评估、精选整理与优化,以保障数据质量。 | **类别** | **描述** | **查询数量** | **图像数量** | |--------------|----------------------------------------------------|----------------|---------------| | text | 纯文本文档页面 | 100 | 1000 | | visual | 纯视觉文档页面或幻灯片 | 100 | 1000 | | mix | 包含视觉与文本混合元素的文档页面 | 100 | 1000 | 各分类所覆盖的领域与主题广泛多样。本基准测试的核心目标为:针对特定文档类型开展检索能力测试,不受其所属领域的限制。
提供机构:
maas
创建时间:
2025-01-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作