five

election-69-OCR-result

收藏
github2026-02-21 更新2026-02-22 收录
下载链接:
https://github.com/killernay/election-69-OCR-result
下载链接
链接失效反馈
官方服务:
资源简介:
2026年泰国选举委员会官方选举结果,通过OCR技术从官方Form สส.6/1 PDF公告中提取,并结构化为机器可读的JSON格式。

Official 2026 Election Results from the Election Commission of Thailand, extracted via OCR technology from the official Form สส.6/1 PDF announcement, and structured into machine-readable JSON format.
创建时间:
2026-02-21
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: election-69-OCR-result
  • 数据来源: 泰国选举委员会(กกต.)官方发布的2026年泰国大选结果PDF文件(表格 สส.6/1)
  • 数据内容: 通过OCR技术从官方PDF扫描件中提取并结构化的大选结果数据,格式为机器可读的JSON和CSV
  • 数据覆盖: 处理了来自泰国选举委员会的776份PDF扫描文件,生成794个匹配文件(397个选区文件 + 397个政党名单文件)
  • 数据状态: 覆盖400个选区中的397个(99.25%),仍有3个选区数据缺失

数据内容与结构

数据文件组织

data/ ├── csv/ # 汇总CSV文件,可使用Excel/Google Sheets打开 │ ├── constituency.csv # 选区制结果,所有候选人(3,458行) │ ├── party_list.csv # 政党名单制结果,所有政党(22,635行) │ └── summary_winners.csv # 选区制获胜者摘要(397行) ├── matched/ # 通过验证并与候选人数据库匹配的JSON文件 │ ├── constituency/ # 选区制结果(397个文件) │ ├── party_list/ # 政党名单制结果(397个文件) │ ├── issues.json # 处理过程中发现的问题列表 │ └── validation_report.json # 验证结果摘要 └── ocr-output/ # OCR原始输出JSON文件 ├── constituency/ # 选区制原始结果(397个文件) └── party_list/ # 政党名单制原始结果(397个文件)

关键数据文件说明

  1. constituency.csv

    • 描述:选区制投票结果,包含所有候选人信息
    • 列:省份代码、省份、选区、编号、候选人姓名、政党、得票数
  2. party_list.csv

    • 描述:政党名单制投票结果,包含所有政党信息
    • 列:省份代码、省份、选区、编号、政党、得票数
  3. summary_winners.csv

    • 描述:选区制获胜者摘要
    • 列:省份代码、省份、选区、获胜者、政党、得票数、有效票数、合格选民数、投票选民数

数据质量与处理

数据质量保证措施

  1. 候选人编号修正:修正了194个选区中616处OCR读取错误的候选人编号,通过candidate_uuid从数据库查找正确编号,准确率达到100%
  2. 政党编号修正:修正了94个选区中3,184处OCR读取错误的政党编号,通过party_uuid从数据库查找正确编号,准确率达到100%
  3. 政党名单得票数修正:修正了15个选区中政党名单的得票数总和(vote sum)不匹配问题,使不匹配数降为0
  4. 重复候选人处理:修正了45个选区中OCR产生的重复候选人编号问题,重复数降为0
  5. 重新OCR处理:对54个得票数仍不匹配的选区文件使用两种AI模型重新进行OCR处理,使不匹配选区从54个减少到7个
  6. 幻影条目清理:检测并删除了OCR产生的幻影重复政党条目

数据质量统计

  • 选区制数据
    • 得票总和匹配选区:384/397(96.7%)
    • 重复候选人:0
  • 政党名单制数据
    • 得票总和匹配选区:341/397(85.9%)
    • 政党编号错误:0

已知剩余问题

  1. 13个选区的选区制数据得票总和仍不匹配(dd≠0)
  2. 56个选区的政党名单制数据得票总和仍不匹配(dd≠0)
  3. 35个未匹配的政党条目:幻影/空白条目(0票),不影响总票数
  4. 2个未匹配的候选人:已被取消资格/姓名与数据库不匹配

数据覆盖范围

最终结果关键数字

  • 选区制总票数:34,579,802票
  • 政党名单制总票数:34,758,153票
  • 合格选民数(选区制):52,524,541人
  • 合格选民数(政党名单制):52,579,202人

政党名单制前五名

  1. ประชาชน:10,861,542票
  2. ภูมิใจไทย:6,396,439票
  3. เพื่อไทย:5,482,572票
  4. ประชาธิปัตย์:3,861,415票
  5. เศรษฐกิจ:1,129,354票

缺失选区

  1. 选区制缺失3个选区
    • 曼谷(กรุงเทพมหานคร)第15选区
    • 巴真府(ปราจีนบุรี)第2选区
    • 难府(น่าน)第1选区(仅有政党名单数据)
  2. 政党名单制缺失3个选区
    • 曼谷(กรุงเทพมหานคร)第15选区
    • 巴真府(ปราจีนบุรี)第2选区
    • 乌隆府(อุดรธานี)第6选区(仅有选区制数据)

处理流程

  1. 数据源:776份泰国选举委员会的PDF扫描文件(无文本层)
  2. OCR处理:主要使用AI视觉OCR,并与其他OCR引擎和LLM进行交叉验证
  3. 验证与匹配:检查票数总和,匹配省份代码和候选人/政党UUID,与Reporter数据库和election_parties对比
  4. OCR错误修正:修正候选人编号、政党编号、政党名单得票数、重复候选人编号等问题
  5. 重新OCR:对问题文件使用两种AI模型重新处理
  6. 数据清理:删除OCR产生的幻影重复条目,删除泰国选举委员会上传错误的文件
  7. 数据输出:生成JSON(原始文件794个 + 匹配文件794个)和CSV文件

重要声明

  • 本数据集通过OCR处理生成,使用了多种AI视觉模型、OCR引擎和LLM进行多模型交叉验证以确保准确性
  • 数据提供者未以任何方式更改、修改或操纵任何选举数据
  • 这是一个独立的志愿者公民努力,旨在帮助数字化泰国选举委员会发布的官方选举结果
  • 所有处理费用由作者个人承担,该项目与任何企业、政党或公民组织无关
  • 如需官方权威结果,请始终参考泰国选举委员会的原始文件

使用要求

  • 署名要求:使用本数据集时,请署名ชานนท์ เงินทองดี (Chanon Ngernthongdee) 或链接回本仓库:https://github.com/killernay/election-69-OCR-result
  • 错误报告:发现数据不准确之处,可通过Twitter/X报告:https://x.com/killernay

时间线

  • 2026年2月8日:泰国大选日
  • 2026年2月20日:泰国选举委员会100%正式公布计票结果PDF文件(776个文件,除3个选区外)
  • 2026年2月20-25日:OCR处理、数据验证、错误修正和数据发布过程

许可证

  • 本数据衍生自公开的官方政府文件
  • 结构化JSON输出免费供公众使用
  • 使用时请按上述要求署名
搜集汇总
数据集介绍
构建方式
在选举数据数字化领域,该数据集通过光学字符识别技术将泰国选举委员会发布的官方PDF文档转化为结构化数据。原始资料为776份扫描版PDF文件,缺乏可编辑文本层,因此采用多模型交叉验证的OCR流程进行处理。具体而言,结合多种AI视觉模型、OCR引擎以及大型语言模型进行文本提取与验证,随后将提取的数据与现有候选人及政党数据库进行匹配,并通过系统化修正流程处理识别错误,最终生成机器可读的JSON与CSV格式数据。
特点
该数据集覆盖了2026年泰国大选99.25%的选区结果,包含选区与政党名单两种选举模式的结构化数据。其显著特点在于经过严格的质量控制,通过UUID匹配确保了候选人及政党编号的完全准确,并利用交叉验证机制显著降低了OCR过程引入的误差。数据以分层结构组织,提供原始OCR输出、验证匹配后的JSON文件以及便于分析的CSV汇总表格,为研究提供了高完整性与可追溯性的选举数据基础。
使用方法
研究人员可通过数据集提供的CSV文件,如constituency.csv与party_list.csv,在电子表格软件中直接进行选区与政党得票的统计分析。开发者则建议使用matched目录下的JSON文件,其中包含经过验证的候选人与政党UUID、投票汇总信息及数据质量报告,便于进行程序化数据集成与深度分析。使用时应参考附带的验证报告与问题日志,注意数据集仍存在少量因源文件质量导致的投票总和未匹配情况,并建议始终以选举委员会原始文件作为最终权威依据。
背景与挑战
背景概述
在选举数据民主化与透明化的全球趋势下,泰国2026年大选官方结果的数字化进程面临技术瓶颈。由独立研究者ชานนท์ เงินทองดี主导创建的election-69-OCR-result数据集,于2026年2月选举结果公布后迅速启动,旨在通过先进的光学字符识别技术,将泰国选举委员会发布的776份扫描版PDF表格转化为结构化、机器可读的JSON数据。该数据集的核心研究问题聚焦于如何从非数字化的图像文件中高精度提取选举结果,以弥补官方机构在规模化数据处理上的资源缺口,为政治学、数据科学及公共政策研究提供关键基础设施,推动选举数据的开放访问与二次分析。
当前挑战
该数据集致力于解决选举结果数据从纸质文档向结构化数字格式转换的挑战,其核心在于克服扫描文件质量低下导致的OCR识别错误,包括模糊笔迹、低分辨率及文件错位等问题。构建过程中的具体挑战体现在多阶段纠错:原始PDF缺乏文本层迫使依赖多模型OCR交叉验证;需修正大量候选人与政党编号的识别偏差,例如616处候选人编号与3,184处政党编号错误;同时须消除OCR引擎产生的幻影条目与重复记录,并通过AI模型重处理54个难以识别的文件以确保投票总数一致性。这些技术障碍凸显了在非理想源文件条件下实现选举数据高保真数字化的复杂性。
常用场景
经典使用场景
在选举科学与政治数据分析领域,election-69-OCR-result数据集为研究者提供了泰国2026年大选的机器可读结构化数据。该数据集通过OCR技术从官方扫描PDF中提取选举结果,并转化为JSON格式,使得大规模选举数据的量化分析成为可能。经典使用场景包括选举地理可视化、投票行为模式识别以及政党支持率的多维度统计,为深入理解泰国政治格局提供了数据基础。
实际应用
在实际应用中,该数据集为政策分析、媒体报道与公民监督提供了重要工具。新闻机构可利用其进行实时选举结果可视化与趋势报道;智库与研究者能够分析选区划分的公平性或投票率的社会经济关联;公民社会组织则可借助数据监测选举透明度与完整性。此外,该数据集的结构化格式便于集成到数据仪表板或交互式地图中,提升了选举信息的公众可及性与理解度。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,主要集中在选举数据质量验证与政治预测模型构建。例如,基于OCR纠错流程的方法论研究,探讨了多模型交叉验证在复杂文档数字化中的效能;另有研究利用该数据集训练机器学习模型,以预测选区层面的投票结果或政党联盟动态。这些工作不仅深化了对泰国选举机制的理解,也为全球选举数据科学设立了新的技术基准与分析范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作