five

Datos Abiertos de Contratación Pública - España

收藏
github2026-02-05 更新2026-01-29 收录
下载链接:
https://github.com/BquantFinance/licitaciones-espana
下载链接
链接失效反馈
官方服务:
资源简介:
西班牙公共采购开放数据完整数据集,包含国家级(PLACSP)和地区级(如加泰罗尼亚、瓦伦西亚)的数据。数据集涵盖从2000年到2026年的37.8M记录,总大小约1.1GB。

Complete Open Dataset of Spanish Public Procurement, which covers national-level (PLACSP) and regional-level (e.g., Catalonia, Valencia) data. The dataset contains 37.8 million records spanning from 2000 to 2026, with a total size of approximately 1.1 GB.
创建时间:
2026-01-27
原始信息汇总

数据集概述:西班牙公共采购开放数据

数据集基本信息

  • 数据集名称:西班牙公共采购开放数据
  • 数据来源:西班牙国家公共部门采购平台(PLACSP)及加泰罗尼亚、瓦伦西亚大区开放数据门户
  • 数据总量:约3480万条记录
  • 数据总大小:约1.05 GB
  • 数据时间范围:2000年至2026年
  • 数据格式:Parquet

数据构成详情

1. 国家级数据(PLACSP)

  • 来源:西班牙公共部门采购平台(https://contrataciondelsectorpublico.gob.es/)
  • 记录数:870万条
  • 数据大小:780 MB
  • 时间范围:2012年至今
  • 主要文件
    • nacional/licitaciones_espana.parquet(最新版本,641 MB)
    • nacional/licitaciones_completo_2012_2026.parquet(完整历史,780 MB)
  • 数据子集
    • 招标项目:360万条记录(2012年至今)
    • 大区汇总:170万条记录(2016年至今)
    • 小额合同:330万条记录(2018年至今)
    • 自有中等委托:1.47万条记录(2021年至今)
    • 初步咨询:3700条记录(2022年至今)
  • 主要字段(48列)
    • 标识类:id、expediente、objeto、url
    • 机构类:organo_contratante、nif_organo、dir3_organo、ciudad_organo
    • 类型类:tipo_contrato、subtipo_code、procedimiento、estado
    • 金额类:importe_sin_iva、importe_con_iva、importe_adjudicacion
    • 授标类:adjudicatario、nif_adjudicatario、num_ofertas、es_pyme
    • 分类类:cpv_principal、cpvs、ubicacion、nuts
    • 日期类:fecha_publicacion、fecha_limite、fecha_adjudicacion

2. 加泰罗尼亚大区数据

  • 来源:加泰罗尼亚透明度门户(https://analisi.transparenciacatalunya.cat/)
  • 记录数:1760万条
  • 数据大小:117 MB
  • 时间范围:2014年至2025年
  • 数据类别与记录数
    • RAISC补贴:960万条记录
    • 公共采购:130万条记录
    • 预算:310万条记录
    • 协议:6.2万条记录
    • 人力资源:340万条记录
    • 资产:11.2万条记录(2020-2025年)
  • 主要文件
    • catalunya/raisc_subvenciones.parquet
    • catalunya/contractacio_publica.parquet
    • catalunya/pressupostos_*.parquet
    • catalunya/convenis_*.parquet
    • catalunya/rrhh_*.parquet
    • catalunya/patrimoni_*.parquet

3. 瓦伦西亚大区数据

  • 来源:瓦伦西亚开放数据门户(https://dadesobertes.gva.es/)
  • 记录数:850万条
  • 数据大小:156 MB
  • 时间范围:2000年至2026年
  • 数据类别详情
    • 采购:13个文件,24.6万条记录,42 MB(REGCON 2014-2025 + DANA)
    • 补贴:52个文件,220万条记录,26 MB(2022-2025年援助 + DANA)
    • 预算:4个文件,34.6万条记录,7 MB(2024-2025年执行情况)
    • 协议:5个文件,8000条记录,2 MB(2018-2022年)
    • 游说(REGIA):7个文件,1.1万条记录,0.4 MB(西班牙唯一)
    • 就业:42个文件,88.8万条记录,13 MB(ERE/ERTE 2000-2025,DANA)
    • 失业:283个文件,260万条记录,17 MB(LABORA统计数据)
    • 工伤事故:10个文件,57万条记录,0.6 MB(2015-2024年事故)
    • 资产:3个文件,9000条记录,0.4 MB(GVA不动产)
    • 实体:2个文件,9.4万条记录,4 MB(地方+协会)
    • 领土:1个文件,4000条记录,0.4 MB(教育中心)
    • 旅游:16个文件,38.3万条记录,17 MB(酒店、旅游公寓、露营地等)
    • 卫生:8个文件,18.9万条记录,6 MB(卫生地图)
    • 交通:7个文件,99.3万条记录,21 MB(城际公交GTFS)
  • 独特数据
    • REGIA:西班牙唯一的游说团体登记册(利益集团、影响活动)
    • DANA:特定灾害数据集(合同、补贴、ERTE)
    • ERE/ERTE历史数据:25年数据(2000-2025年)
    • 工伤事故:10年工伤事故数据(2015-2024年)

数据更新频率

  • PLACSP(国家级):每月
  • 加泰罗尼亚:不定(取决于具体数据集)
  • 瓦伦西亚:每日/每月(取决于具体数据集)

使用方式

  • 编程语言:Python
  • 主要库:pandas, pyarrow
  • 数据加载示例:提供了从Parquet文件加载国家级、加泰罗尼亚补贴、瓦伦西亚采购及游说数据,以及合并文件夹内多个文件的代码示例。
  • 分析示例:包括国家级主要中标方排名、瓦伦西亚ERE/ERTE趋势(2000-2025年)、游说团体按行业分类、DANA补贴分析。

数据提取脚本

  • licitaciones.py:从ATOM/XML提取国家级数据
  • ccaa_catalunya.py:下载加泰罗尼亚数据
  • ccaa_valencia.py:下载瓦伦西亚数据
  • *_parquet.py:将CSV转换为Parquet格式

系统要求

  • Python环境需安装:pandas, pyarrow, requests

许可证

  • 西班牙政府及大区公共数据 - 再利用许可证(https://datos.gob.es/es/aviso-legal)

数据来源链接

  • PLACSP:https://contrataciondelsectorpublico.gob.es/
  • 加泰罗尼亚:https://analisi.transparenciacatalunya.cat/
  • 瓦伦西亚:https://dadesobertes.gva.es/
搜集汇总
数据集介绍
main_image_url
构建方式
在公共采购数据透明化的背景下,该数据集通过系统化整合西班牙国家级与自治区级官方开放数据门户构建而成。国家级数据源自西班牙公共部门采购平台(PLACSP),涵盖招标、合同及咨询等类别,通过解析ATOM/XML格式的官方数据流获取。加泰罗尼亚自治区数据则通过Socrata API从Transparència Catalunya门户提取,包含公共采购、补贴及人力资源等多维信息。瓦伦西亚自治区数据通过CKAN API从Dades Obertes GVA门户采集,其独特之处在于收录了西班牙唯一的游说活动登记(REGIA)及自然灾害专项数据。所有原始数据经清洗与转换后,统一存储为高效的Parquet格式,确保了数据的完整性与可访问性。
特点
该数据集以其广泛的时空覆盖与丰富的主题维度而著称,总计包含超过3480万条记录,时间跨度从2000年延伸至2026年,数据总量约1.05 GB。其核心特征在于实现了国家级采购数据与两个主要自治区(加泰罗尼亚和瓦伦西亚)行政数据的深度融合,提供了从招标、合同到预算、就业、旅游等跨领域的全景视图。尤为突出的是,数据集包含了瓦伦西亚地区独有的游说活动登记信息以及针对特定灾害(如DANA)的应急合同与补贴数据,这为研究政府透明度、利益集团影响及危机管理提供了珍贵素材。数据以结构化的48个字段呈现,关键信息如金额、参与者、分类代码及地理位置均被清晰标注,便于进行深入的量化与质性分析。
使用方法
为便利研究者进行数据分析,数据集以Parquet文件格式组织,用户可直接使用Pandas库进行高效读取与处理。针对国家级采购数据,加载核心文件即可获得完整的招标历史记录;对于自治区数据,则需按主题目录分别访问相应的Parquet文件。数据集支持灵活的查询与聚合操作,例如,可对国家级数据按中标方进行金额汇总以识别主要市场参与者,或对瓦伦西亚的就业数据进行年度趋势分析以观察经济波动。此外,配套的Python脚本支持从原始数据源进行定期更新与格式转换,确保了数据集的时效性与可扩展性。整体而言,该数据集为公共政策分析、经济学研究及数据新闻等领域提供了坚实的数据基础。
背景与挑战
背景概述
在公共治理与数据科学交叉领域,开放政府数据已成为推动透明度和问责制的关键工具。Datos Abiertos de Contratación Pública - España数据集由BQuant Finance等机构或个人整合构建,汇集了西班牙国家及加泰罗尼亚、瓦伦西亚等自治区的公共采购数据,时间跨度自2000年至2026年,涵盖超过3400万条记录。该数据集的核心研究问题在于如何通过结构化、可访问的数据资源,支持对公共财政支出、采购行为模式及政策效果的量化分析,从而为学术研究、政策评估和公众监督提供实证基础,对提升公共行政的透明度和效率具有显著影响力。
当前挑战
该数据集旨在解决公共采购领域的复杂分析挑战,包括跨区域、跨层级的采购行为比较、腐败风险识别以及财政资金使用效率评估。然而,其构建过程面临多重挑战:首先,数据来源异构,涉及国家平台PLACSP以及多个自治区的独立数据门户,格式与标准不一,需进行大量清洗与整合;其次,数据覆盖时间跨度长且更新频率不同,确保时序一致性与实时性存在难度;再者,部分字段如CPV分类或地理位置编码可能存在缺失或不规范,影响分析的准确性。此外,数据集规模庞大,达1.05GB,对存储、处理与计算资源提出了较高要求。
常用场景
经典使用场景
在公共财政与治理透明度研究领域,Datos Abiertos de Contratación Pública - España数据集为学者提供了分析西班牙公共采购行为的经典场景。研究者常利用其全国性招标数据,结合加泰罗尼亚和瓦伦西亚大区的详细记录,系统考察政府采购的规模分布、竞争程度及地域差异。通过追踪长达二十余年的合同与补贴信息,能够深入揭示公共资金流动的宏观模式与微观机制,为理解政府支出效率奠定数据基础。
解决学术问题
该数据集有效解决了公共经济学与政治学中关于政府透明度、采购腐败风险及财政效率的若干核心问题。学者借助其细粒度的合同金额、投标方信息与程序类型字段,可量化评估采购竞争性对价格的影响,识别非竞争性授予模式的风险因素。独特的大区对比数据支持跨行政区比较研究,而瓦伦西亚大区独有的游说活动记录,则为探究利益集团对公共决策的渗透提供了前所未有的实证素材,显著推动了治理问责领域的学术进展。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,包括基于机器学习预测合同腐败概率的模型构建,以及运用网络分析方法揭示承包商与政府部门间的关联图谱。在比较公共政策领域,学者利用其跨大区数据探究制度差异对采购结果的影响,产出了关于分权治理效果的系列实证论文。此外,数据集独特的游说登记信息催生了关于利益集团活动模式的首次大规模量化研究,为后续的立法影响评估框架提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作