SpanishGovernmentMultimodalQA

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/megaelius/SpanishGovernmentMultimodalQA

下载链接

链接失效反馈

官方服务：

资源简介：

西班牙政府多模态问答数据集包含683名西班牙政府成员的官方简历和图片，这些数据来源于https://transparencia.gob.es。此外，数据集还包含335个关于每位政府成员简历和图片属性的问题。每个问题都有一个唯一的答案，形式为具有所需属性的人员的全名。数据集分为两个配置：'corpus'和'questions'。'corpus'配置包含每个政府成员的ID、图片、全名、最后更新日期和简历文本；'questions'配置包含问题答案、西班牙语问题和英语问题。问题和答案是通过Gemini模型生成的，结合了简历和图片的特征来收集基于特定图像值和简历特征的独特人员。数据集还提供了关于语料库中标记数量和缺失照片比例的统计数据，以及使用Gemini Embeddings进行文本检索的初步结果。数据来源于西班牙政府透明度门户，下载日期为2026年2月8日。数据重用需遵守特定条件，包括不歪曲信息含义、正确引用来源、注明最后更新日期等。

创建时间：

2026-02-28

原始信息汇总

Spanish Government Multimodal QA 数据集概述

基本信息

数据集名称: Spanish Government Multimodal QA
许可证: CC-BY-4.0
数据来源: Portal de la Transparencia de la Administración General del Estado (https://transparencia.gob.es)
数据下载日期: 2026年2月8日

数据集构成与内容

本数据集包含两个配置（config），均仅包含测试集（test split）。

1. 语料库配置 (`corpus`)

描述: 包含683名西班牙政府成员的官方简历（CV）和图像。
数据特征:
- id_person (string): 人员ID。
- image (image): 个人资料图片。
- full_name (string): 全名。
- last_updated (string): 最后更新日期。
- cv_text (string): 简历文本。
数据量:
- 样本数量: 683
- 数据集大小: 68,430,964 字节
- 下载大小: 67,659,748 字节

2. 问题配置 (`questions`)

描述: 包含335个关于政府成员简历和图像属性的问答对。
数据特征:
- answer (string): 答案，为符合条件人员的全名。
- question_es (string): 西班牙语问题。
- question_en (string): 英语问题。
数据量:
- 样本数量: 335
- 数据集大小: 88,134 字节
- 下载大小: 21,201 字节

数据集特点与用途

核心任务: 多模态问答（Multimodal QA）。每个问题基于简历文本和图像特征的组合来唯一确定一位政府成员，答案是该成员的全名。
示例:
- 问题（西）: “¿Quién tiene una chaqueta de color verde en su foto de perfil y reporta que trabaja en el Ministerio de Economía, Comercio y Empresa?”
- 问题（英）: “Who has a green jacket in their profile picture and reports that they work at the Ministry of Economy, Trade and Enterprise?”
- 答案: “Paula Conthe Calvo”
数据生成: 问题和答案借助Gemini模型生成，结合了简历和图像的特征，并经过人工检查以过滤答案模糊的样本。

关键统计信息

缺失照片比例: 14.3%
总文本标记数（Gemini 3.1 Preview）: 509,439
人均标记数: 746

初步实验结果

使用仅文本检索增强生成（RAG）的初步结果（嵌入模型：Gemini Embeddings， LLM：Gemini-3-flash-preview）:

k=5时:
- Recall@5: 29.6%
- Accuracy@5: 9.6% (GPT-5.2), 22.4% (Claude-Opus-4-6), 27.5% (Gemini-3.1-preview)
k=20时:
- Recall@20: 61.5%
- Accuracy@20: 49.9% (Gemini-3.1-preview)

法律与重用框架

重用条件: 遵循 https://www.datos.gob.es/avisolegal 规定的一般条件。
允许用途: 商业和非商业用途。
主要要求:
1. 不得歪曲信息的含义。
2. 必须正确注明来源。
3. 应注明最后更新日期（如果可用）。
4. 不得暗示原始机构的认可。
5. 必须保留关于更新日期和重用条件的元数据。
免责声明: 本项目是独立的，与“Portal de la Transparencia de la Administración General del Estado”或任何西班牙政府机构无关联、未被认可或赞助。

搜集汇总

数据集介绍

构建方式

在公共行政透明度研究领域，SpanishGovernmentMultimodalQA数据集通过系统化流程构建而成。其核心语料来源于西班牙政府透明度门户网站，涵盖了683名政府成员的官方简历与肖像图像，确保了数据源的权威性与时效性。问题与答案的生成则借助了Gemini模型，通过提取简历文本与图像中的特征，组合成能够唯一标识特定人员的查询对。为确保质量，研究团队对生成样本进行了人工审查，以过滤答案模糊的条目，最终形成了包含323个高质量问答对的多模态测试集。

特点

该数据集最显著的特点在于其多模态性质与精准的问答设计。它并非简单的文本集合，而是将结构化简历文本与人物肖像图像有机结合，要求模型同时理解视觉属性与复杂的职业履历信息。每个问题均设计为基于图像特征与文本特征的组合查询，答案则是对应人员的全名，这为评估模型的多模态推理与细粒度检索能力提供了严谨的基准。此外，数据集中约14.3%的条目缺少照片，这一特性也为研究模型在信息缺失情况下的鲁棒性提供了现实场景。

使用方法

该数据集主要服务于多模态检索与问答系统的评估与开发。研究者可将其作为基准测试集，用于评估模型在结合视觉与文本信息后进行人物检索与属性推理的性能。典型的使用流程涉及两个配置：‘corpus’包含全部人员的数据，而‘questions’则包含待查询的问题。开发人员可以构建检索增强生成（RAG）系统，首先从语料库中检索出相关候选，再通过阅读理解和多模态分析来定位最终答案。数据集提供的初步实验结果，如在不同检索数量k下的准确率与召回率，可为模型性能比较与优化方向提供重要参考。

背景与挑战

背景概述

SpanishGovernmentMultimodalQA数据集诞生于2026年，由独立研究者Elias Abad Rocamora基于西班牙政府透明度门户的公开信息构建。该数据集聚焦于多模态信息检索与问答的前沿领域，核心研究问题在于如何协同处理文本与视觉信息，以实现对复杂、异构政府档案的精准查询。它收录了683名政府成员的官方简历与肖像图片，并辅以323条双语问答对，为检验多模态大模型在真实行政文档上的推理能力提供了重要基准，推动了政务数据智能化处理技术的发展。

当前挑战

该数据集旨在解决多模态问答任务中的核心挑战，即如何实现跨模态的细粒度语义对齐与联合推理。具体而言，模型需同时理解简历文本中的结构化职业信息与肖像图片中的视觉属性（如衣着颜色），并据此回答涉及双模态特征的复合问题。在构建过程中，挑战主要源于数据源的异构性与质量不一，例如约14.3%的成员缺失照片，且简历文本长度与格式差异显著。此外，通过大模型自动生成问答对后，仍需人工核查以消除答案的模糊性，确保评估的可靠性。

常用场景

经典使用场景

在跨模态信息检索与问答系统研究中，SpanishGovernmentMultimodalQA数据集提供了一个独特的实验平台。该数据集整合了西班牙政府成员的官方简历文本与个人肖像图像，并配备了针对两者特征组合的精确问题。研究者可借此构建多模态检索增强生成模型，要求系统同时解析视觉属性与文本细节，例如识别特定着装颜色并关联其任职部门，从而精准定位目标人物。这种设置模拟了现实场景中需融合异构信息源进行复杂查询的需求，为评估模型跨模态理解与推理能力提供了标准化基准。

衍生相关工作

围绕SpanishGovernmentMultimodalQA数据集，已衍生出多项聚焦于多模态检索增强生成的前沿探索。初步研究对比了不同嵌入模型与大语言模型在纯文本检索与多模态检索下的性能，为优化跨模态表示提供了基准。相关工作进一步探索了如何有效提取并融合图像视觉特征与简历文本特征，以提升检索精度。这些工作推动了多模态RAG框架的发展，并为处理其他领域（如企业名录、学术档案）的类似多模态问答任务提供了可迁移的方法论与模型架构参考。

数据集最近研究