Dataset de Planes de Gobierno — Elecciones Generales Perú 2026

github2026-03-02 更新2026-03-05 收录

下载链接：

https://github.com/sorenriosdev/planes-gobierno-pe-2026

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集并结构化秘鲁2026年大选中注册政治组织的政府计划。目标是将官方数据（通常以非结构化或扫描的PDF格式分发）转换为机器可读的格式（JSON和Markdown），以便于数据分析、公民审计和人工智能系统（RAG / LLMs）的实现。

This dataset collects and structures the government plans of registered political organizations participating in the 2026 Peruvian general election. Its objective is to convert official data, which is typically distributed in unstructured or scanned PDF formats, into machine-readable formats (JSON and Markdown) to facilitate data analysis, citizen audits, and the implementation of artificial intelligence systems including RAG and LLMs.

创建时间：

2026-03-02

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Elecciones Perú 2026 — Dataset de Planes de Gobierno
核心内容：为秘鲁2026年大选收集并结构化的各政党政府计划数据集。
数据来源：官方数据（来自秘鲁国家选举委员会JNE），原始格式为PDF。
处理目标：将非结构化的官方PDF数据转换为机器可读格式（JSON和Markdown），以促进数据分析、公民审计和人工智能系统（RAG/LLMs）的应用。

数据集内容与结构

数据文件

主数据目录：data/
- 元数据目录：data/metadata/
  - 文件：source_index.json
  - 内容：包含从JNE API直接提取的每个政党的技术信息。
- 计划文档目录：data/plans_markdown/
  - 文件：以政党命名的Markdown文件（例如PARTIDO_1.md）。
  - 数量：涵盖35个政治组织。

关键数据字段（`source_index.json`）

idPlanGobierno：JNE系统中的政府计划ID。
idOrganizacionPolitica：政治组织ID。
txRutaCompleto：完整版官方PDF的URL。
txRutaResumen：JNE提供的摘要版PDF的URL。
txEstadoLista：列表状态（例如“PRESENTADA”）。

处理规格（`plans_markdown/`文件）

编码：UTF-8。
表格：转换为GFM（GitHub Flavored Markdown）格式。
结构：基于原始文档的标题层级（#, ##, ###）进行组织。
命名：采用NOMBRE_PARTIDO.md格式，便于脚本迭代处理。

数据集特点与价值

格式优化：提供清理后的Markdown文本和结构化的表格，便于比较分析。
元数据集中：提供统一的JSON索引，包含直接链接、组织ID和文件路径。
AI就绪：数据已优化，可直接用于向量数据库索引或LLM处理，无需额外预处理。

数据收集与处理方法

获取方式：通过爬取JNE公共系统及处理PDF文档获得。
质量控制：应用了数据清洗层，确保关键部分（社会、经济和制度维度）的语义连贯性。
说明：本仓库仅包含处理结果，不包含用于提取和转换的软件。

许可信息

许可证类型：MIT许可证。
使用条款：可自由使用、复制和修改，但需保留相应的署名信息。许可证文件地址：https://github.com/sorenriosdev/planes-gobierno-pe-2026/blob/main/LICENSE

搜集汇总

数据集介绍

构建方式

在政治信息透明化与数据科学交叉领域，该数据集通过系统化方法构建而成。其原始材料来源于秘鲁国家选举陪审团（JNE）官方发布的2026年大选各政党政府计划PDF文档，这些文档常以非结构化或扫描形式存在。构建过程首先从JNE的公共API中爬取元数据，包括政党标识符、文档状态及原始PDF链接。随后，通过自动化工具对PDF进行解析与转换，将文本内容提取并重构为结构化的Markdown格式，特别注重恢复表格数据与文档层级，最终生成统一编码的机器可读文件，并辅以集中管理的元数据索引。

特点

该数据集的核心特征在于其高度的结构化和可机读性。与官方发布的原始PDF不同，数据集提供了经过清洗和标准化的Markdown文本，有效消除了转换过程中产生的噪声，确保了内容的清晰度。关键的数据结构体现在将文档中的复杂表格重建为GitHub风格的Markdown格式，便于进行跨党派的比较分析。此外，数据集集成了从JNE API提取的集中化元数据，包含每个计划的唯一标识符和源文件路径，构成了完整的数据索引。其设计特别优化了人工智能应用场景，文档格式可直接用于向量数据库索引或大型语言模型处理，无需额外的预处理步骤。

使用方法

该数据集为政治分析、数据新闻和人工智能研究提供了直接可用的资源。研究人员和开发者可通过仓库中的`source_index.json`文件快速获取所有政党计划的元数据概览和原始文件链接。具体的政府计划内容存储于Markdown文件中，用户可直接阅读或利用脚本进行批量处理与分析。对于技术应用而言，结构化的文本和表格非常适合用于构建检索增强生成系统或训练专注于政治文本分析的领域模型。数据集遵循MIT许可证，允许用户自由使用、复制和修改，仅需保留相应的署名，这为学术研究和公民审计项目的开展提供了法律保障和便利。

背景与挑战

背景概述

在政治科学与计算社会科学交叉领域，公开、结构化的政府计划文本对于促进民主透明度和政策分析至关重要。Dataset de Planes de Gobierno — Elecciones Generales Perú 2026数据集由技术透明度倡议者Soren Rios等人于2024年左右创建，旨在系统化处理秘鲁2026年大选中各政治组织提交的政府计划文件。该数据集的核心研究问题在于如何将官方发布的非结构化PDF文档转化为机器可读的格式，从而支持数据驱动的研究、公民审计以及基于检索增强生成和大型语言模型的智能系统开发。通过提供标准化的JSON元数据和Markdown文本，该资源显著降低了政策文本分析的技术门槛，为选举研究、比较政治学以及公共政策评估领域提供了高质量的基础数据。

当前挑战

该数据集致力于解决政治文档分析与信息可及性领域的核心挑战，即如何从异构、非结构化的官方PDF中高效提取并标准化关键政策信息，以支持自动化比较分析与公众监督。在构建过程中，项目面临多重技术难题：原始PDF文件常为扫描图像或格式混乱，需要应用先进的文档解析与光学字符识别技术以确保文本提取的准确性；同时，政府计划中复杂的表格、层级标题与专业术语要求设计精密的清洗与重构流程，以保持语义连贯性与数据结构一致性。此外，确保处理后的数据保持中立客观、避免引入偏见，并与官方来源同步更新，亦是维护数据集可靠性与时效性的持续挑战。

常用场景

经典使用场景

在政治科学与公共政策分析领域，政府计划数据集为研究者提供了结构化文本资源，支持对政党竞选纲领的深度解析。该数据集最经典的使用场景在于比较政治研究，学者可借助其标准化的Markdown与JSON格式，系统性地对比不同政党在经济社会制度等维度的政策主张，从而揭示选举周期中的意识形态光谱与政策竞争模式，为民主进程的量化分析奠定数据基础。

衍生相关工作

围绕该数据集，已衍生出多项经典相关工作，包括基于检索增强生成（RAG）架构的智能问答系统，用于实时查询政党政策细节；以及结合大型语言模型（LLMs）的政策立场自动分类与情感分析工具。这些工作进一步拓展了计算社会科学在选举分析中的应用边界，为自动化政治文本处理与决策支持系统提供了可复用的范例。

数据集最近研究